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SPSS 软件 原名 为 社会 科学 统计 软件 包 (Statistical Package for the Social Sciences, 
SPSS)， 现 已 改名 为 统计 产品 和 服务 解决 方案 (Statistical Product and Service Solutions, 
SPSS)， 是 世界 上 著名 的 统计 分 析 软 件 之 一 。SPSS 最 鲜明 的 特点 是 ， 通过 轻松 点 击 菜单 ， 
便 可 完成 统计 学 分 析 ; 其 输出 结果 清晰 、 直 观 、 专 业 ; 可 在 不 改变 数据 格式 (包括 中 文 变 
量 名 、 中 文 文字 、 小 数位 数 等 ) 的 情况 下 ， 完 美 调用 Excel 或 Access 等 数据 文件 。SPSS 
易学 易 用 ， 因 此 受到 许多 用 户 ， 特 别 是 非 统 计 学 专业 人 员 的 青睐 。 尽 管 人 们 都 公认 SAS 
(Statistical Analysis System) 更 优秀 、 更 专业 ， 但 据 小 范围 的 调查 显示 ， 目 前 SPSS 用 户 人 
数 约 为 SAS 的 4 倍 左右 。 


写作 背景 


我 从 事 统计 学 教学 工作 10 余年 , 既 教 统计 学 理论 课程 ,也 教 统计 学 软件 应 用 ,对 SPSS, 
SAS 软件 的 应 用 具有 浓厚 的 兴趣 。 我 一 直 有 个 梦想 ， 拟 组 织 国 内 统计 界 精英 们 完成 一 本 与 
SPSS 或 SAS 有 关 的 统计 学 书籍 ， 平 时 也 收集 了 不 少 素材 。 去 年 夏秋 时 节 ， 借 在 国家 卫生 
部 做 课题 的 机 会 ， 我 和 北京 人 学 公共 卫生 学 院 郑 迎 东 博 士 一 起 去 拜访 了 电子 工业 出 版 社 北 
不 博文 视点 资讯 有 限 公司 郭 立 总 经 理 、 朱 沐 红 编辑 , 她 们 于 2002 年 策划 编辑 了 我 的 《Excel 
与 数据 分 析 》 一 书 。 无 意 中 我 们 谈 到 了 国内 统计 学 软件 的 应 用 情况 ， 她 们 特别 关注 SPSS, 
她 们 对 SPSS, SAS 软件 用 户 比例 的 调查 结果 恰好 与 我 校 研究 生 选 修 这 两 门 课程 人 数 比例 
相 吻 合 。 当 天 她 们 便 提 出 了 策划 一 本 SPSS 书籍 的 想法 ， 次 日 我 将 编写 SPSS 书 的 想法 及 
该 书 拟 编写 目录 发 给 了 郭 立 总 经 理 和 朱 沐 红 编辑 ， 我 的 想法 得 到 了 她 们 的 肯定 。 

在 郭 立 总 经 理 和 朱 沐 红 编 辑 的 鼓励 和 支持 下 , 我 承担 起 了 这 本 书 的 主编 工作 。 于 2005 
年 8 月 在 天 津 举 办 的 中 国 卫生 统计 学 术 交 流 大 会 期 间 ， 初 步 确定 了 这 本 书 的 编 委 会 成 员 。 
郑 迎 东 、 毛 宗 福 、 张 岩 波 、 张 菊 英 、 部 元 涛 、 曹 阳 、 郭 海 强 、 曾 庆 、 薛 富 波 等 老师 积极 响 
应 ， 他 们 中 的 大 多 数 到 天 津 参 加 了 该 书 的 第 一 次 编 委 会 议 ， 会 上 初步 统一 了 编写 本 书 的 思 
想 。 本 书后 期 又 吸纳 了 方 亚 、 尹 平 、 吕 美霞 等 老师 为 编 委 。 这 些 编 委 会 成 员 年 龄 均 在 45 
岁 以 下 ， 绝 大 多 数 是 具有 统计 学 博士 学 位 的 高 校 教 师 ， 对 统计 软件 应 用 有 特殊 爱好 ， 能 吃 
苦 耐 劳 ， 在 国内 统计 界 也 享有 一 定 知名 度 。 本 书 秘书 为 郑 雷 、 薪 丽 丽 。 


本 书 特色 


市 面 上 有 关 SPSS 的 书籍 应 该 说 不 少 ， 也 不 乏 有 优秀 的 作品 。 但 大 多 数 书籍 只 侧重 于 
SPSS 相应 版 本 的 操作 步骤 介绍 ， 较 少 阐 述 相 应 的 统计 学 方法 ， 使 得 部 分 读者 在 选择 具体 
的 统计 学 方法 方面 存在 一 定 的 困难 。 为 此 ， 我 们 这 本 书 的 总 体 编 写 思 路 是 : 首先 尽 可 能 
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俗 易 懂 、 详 细 地 介绍 统计 学 方法 ， 然 后 借助 于 SPSS 软件 去 实现 。 对 于 SPSS 所 输出 的 结 
果 给 予 合理 、 详 尽 的 解释 ， 即 统计 学 方法 、SPSS 操作 、 分 析 结 果 解 释 齐 头 并 进 ， 尤 其 强 
调 统计 学 方法 的 介绍 与 分 析 结 果 的 解释 。 


本 书 内 容 


本 书 共有 24 章 ， 分 为 基础 篇 (第 1~13 章 ) 和 高 级 篇 〈 第 14~24 章 ) 两 部 分 。 基 础 篇 
介绍 了 SPSS 概况 ， 数 据 类 型 与 各 种 类 型 数据 的 统计 学 描述 ， 概 率 分 布 与 正 态 性 检验 ， 和 置 
信和 区间 估 计 与 假设 检验 原理 ， 区 间 数 据 的 统计 推断 ， 名 义 分 类 数据 的 统计 推断 ， 有 序 分 类 
数据 的 统计 推断 ， 简 单线 性 回归 与 相关 ， 曲 线 回 归 与 非 线性 回归 ， 多 重 线性 回归 与 相关 ， 
统计 图 表 ， 诊 断 试验 评价 与 ROC 分 析 ， 以 及 缺失 数据 处 理 方法 等 。 高 级 篇 介绍 了 logistic 
回归 ， 对 数 线性 模型 与 Poisson 回归 ， 生 存 分 析 与 Cox 模型 ， 聚 类 分 析 与 判别 分 析 ， 决 策 
树 分 析 ， 主 成 分 分 析 与 因子 分 析 ， 析 因 分 析 与 协 方 差分 析 ， 重 复 测量 与 混合 效应 模型 ， 多 
变量 方差 分 析 与 典型 相关 ， 时 间 序 列 分 析 ， 信 度 分 析 ， 对 应 分 析 与 结合 分 析 等 方法 。 每 一 
种 统计 学 方法 均 配 有 研究 实例 ， 每 一 实例 的 SPSS 操作 、 输 出 结果 解释 都 有 详尽 的 说 明 。 
因此 ， 通 过 本 书 的 学 习 ， 读 者 不 仅 可 以 学 到 最 新 进展 的 统计 学 方法 ， 而 且 可 以 通过 实例 的 
学 习 ， 自 己 利用 SPSS 解决 有 关 数 据 的 分 析 问 题 。 

本 书 共 提 供 了 94 个 实例 数据 ， 分 别 采 用 Excel 格式 和 SPSS 格式 建立 数据 文件 ， 文 件 
存放 在 所 配 光 盘 中 , 读者 学 到 某 个 例子 时 ， REANA ARGE, BEA HR SPSS 
操作 步骤 点 击 SPSS 软件 界面 上 的 菜单 ， 便 可 轻松 获得 书 中 所 给 结果 。 

本 书 除 正文 外 ， 还 建立 了 3 个 附录 。 附 录 A 详尽 列 出 了 SPSS 的 函数 及 其 说 明 ; 附录 
B 简单 介绍 了 SPSS 统计 分 析 程 序 及 其 编写 方法 ， 附录 C 以 框架 流程 图 形式 列 出 了 统计 学 
方法 的 选择 方案 ， 此 外 ， 该 附录 还 标 出 了 每 一 种 统计 学 方法 在 本 书 中 所 对 应 的 章节 号 。 

本 书 很 多 章节 均 具 有 其 鲜明 特色 ， 如 决策 树 分 析 、 多 项 分 类 logistic 回归 、 诊 断 试验 
的 ROC 分 析 等 方法 及 其 SPSS 实现 ， 在 国内 同类 书籍 中 应 该 具有 领先 的 地 位 。 

尽管 本 书 以 SPSS 13.0 为 基础 编写 ， 但 本 书 的 方法 不 失 其 普遍 性 。 所 以 本 书 也 可 以 作 
为 其 他 SPSS 版 本 教学 与 科研 的 参考 书 。 


本 书 编者 


本 书 第 L2 章 由 曾 庆 编 号， 第 3,4 章 由 曹阳 、 字 传 华 编写 ， 第 5 章 由 曹阳 编写 ， 第 6,7 
章 由 吕 美 起 、 毛 宗 福 编写 ， 第 8-10 章 由 张 菊 英 编写 ， 第 11 章 由 郭 海 强 编写 ， 第 12,14 章 
由 字 传 华 编写 ， 第 13 章 由 薛 富 波 编写 ， 第 15 章 由 刘 裕 、 郝 元 涛 编写 ， 第 16 章 由 和 尹 平 、 
陆 芳 编写 ， 第 17 章 由 郑 迎 东 、 字 传 华 编写 ， 第 18 章 由 方 亚 编号， 第 19~21 章 由 张 岩 波 编 
写 ， 第 22 章 由 郑 迎 东 编写 ， 第 23,24 章 由 部 元 涛 编号， 此外， 附录 A 由 曾 庆 、 郭 海 强 编 
写 ， 附 录 B 由 郑 雷 、 宇 传 华 编号， 附录 C HAW, FERS. 
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11 SPSS 简介 


SPSS 原名 为 Statistical Package for the Social Sciences 《社会 科学 统计 软件 包 )， 是 由 
SPSS 公司 (www.spss.com) 出 品 的 大 型 通用 专业 统计 分 析 软 件 。 该 软件 能 够 利用 多 种 类 
型 的 数据 文件 及 数据 来 源 ， 生 成 统计 报表 、 统 计 图 形 ， 进 行 简单 和 复杂 的 统计 分 析 。 该 系 
统 可 以 在 众多 的 操作 系统 平台 上 运行 ， 包括 Windows 系统 、UNIX 系统 、MAC OS/X 系统 
等 ， 而 SPSS for Windows 仅 是 该 产品 (SPSS@) Æ Windows 系统 平台 运行 的 一 个 版 本 。 
2000 年 SPSS 公司 重新 定义 了 SPSS 缩写 含义 ， 确 定 SPSS 为 英文 Statistical Product and 
Service Solutions 〈 统 计 产 品 和 服务 解决 方案 ) 的 缩写 。 

SPSS for Windows 具有 以 下 的 特点 。 

e 拥有 专业 级 的 统计 分 析 功 能 。 既 可 进行 经 典 的 统计 分 析 ， 也 可 进行 最 新 统计 方法 的 
分 析 。 

强 有 力 的 数据 管理 能 力 。 通 过 类 似 于 电子 表格 的 数据 编辑 窗口 ， 可 以 直观 地 定义 、 

输入 、 显 示 、 编 辑 数 据 。 提 供 丰 富 的 内 部 函数 ， 易 于 进行 数据 转换 。 内 置 SQL i 

言 ， 能 够 与 大 型 数据 库 完美 联机 ， 提 取 数 据 。SPSS 能 够 直接 读 取 、 利 用 绝 大 多 数 

常用 软件 的 数据 文件 类 型 。 

统计 图 形 和 制 表 功能 强大 。 输出 美观 , 组 织 合理 。 能 够 很 轻松 地 输出 各 种 统计 图 表 ， 

品质 卓越 。 输 出 为 结构 化 的 组 织 形式 ， 有 利于 浏览 查看 。 

系统 操作 采用 菜单 操作 和 程序 语言 并 重 的 方案 。 绝 大 多 数 操作 都 可 以 使 用 菜单 和 对 

话 框 通过 选择 和 填充 完成 ， 操 作 简 便 、 直 观 。 对 于 高 级 用 户 ，SPSS 提供 了 先进 、 

强大 的 程序 语言 ， 通 过 程序 语言 可 使 分 析 过 程 自动 化 、 标 准 化 。 同 时 菜单 操作 过 程 

能 自动 生成 对 应 的 操作 程序 ， 可 供用 户 学 习 、 研 究 。 

e 全 部 分 析 的 操作 过 程 具有 追溯 性 。 所 有 操作 过 程 都 可 以 在 系统 日 志 中 完整 地 反映 出 
来 ， 便 于 核查 分 析 过 程 ， 使 分 析 过 程 具 有 重复 性 、 客 观 性 ， 同 时 也 便于 找 出 分 析 中 


Ei: ESW3 


的 问题 。 
。 除 此 之 外 ，SPSS for Windows 还 有 很 好 的 联机 帮助 系统 ， 以 及 良好 的 电子 文档 发 布 
能 力 等 。 


1.2 ”使 用 SPSS 进行 数据 分 析 的 基本 步骤 


使 用 SPSS 进行 数据 分 析 ， 按 下 面 5 个 基本 步骤 进行 。 

CE) 输入 数据 到 SPSS (Data Editor 窗口 /File 菜单 )。 

(2) 分 析 前 数据 准备 。 如 数据 核查 、 筛 选 、 数 据 转换 、 编 码 等 工作 (Data/Transform 
菜单 )。 
(3) 选择 分 析 方 法 和 分 析 过 程 (Analyze 或 者 Graphs 菜单 )。 

D 选择 分 析 的 变量 和 观察 个 体 〈 变 量 选择 窗口 /Data Case 菜单 )。 
(8) 运行 分 析 过 程 ， 浏 览 结果 (Viewer 窗口 /SmartViewer)。 


1.3 ”主要 窗口 和 功能 


初次 安装 SPSS 软件 后 ， 打 开 SPSS 软件 会 弹出 如 图 1-1 所 示 的 窗口 。 





What would you like to do? 


T (^ Create new query using Database Wizard 


p /$ Qpen an existing data source 


— 


C Open another type of file 
More Files... 





f^ Don't show this dialog in the future. 


[L5 7] _ ce | 





图 1-1 SPSS 任务 向 导 窗 口 


> 操作 选项 说 明 
“Run the tutorial 全 运行 SPSS 教程 
-Type in data 一 在 数据 编辑 窗口 直接 输入 数据 
Run an existing query 号 使 用 已 经 定义 的 SQL 数据 源 


J 3 


与 统计 分 


“Creat new query using Database Wizard ”号 使 用 数据 库 向 导 创立 一 个 新 的 SQL 数据 


Open an existing data source 信使 用 已 有 的 内 部 数据 
“Open another type of file 号 使 用 已 有 的 外 部 数据 
“Don't show this dialog in the future 号 以 后 启动 SPSS 不 再 显示 该 对 话 框 


用 户 可 以 根据 自己 的 需要 在 以 上 几 项 中 做 出 选择 ， 然 后 单 击 “OK” 按 钮 继续 工作 。 
单 击 “Cancel” 按 钮 则 中 止 任务 向 导 ， 或 者 选择 Type in data 进入 SPSS 后 ， 打 开 空 数 
HR E 1-2)。 


File Edit View Data Transform Analyze Graphs Utilities Window Help 


ajos] mgl olol tel e] A| EE DARI Yj@| 
1: 


» [Data View Á Variable View /AN 





图 1-2 SPSS 空 数据 编辑 窗口 


为 了 方便 使 用 和 操作 ，SPSS 提供 了 丰富 的 窗口 。 每 个 窗口 都 具有 不 同 的 功能 ， 相 对 
应 的 菜单 系统 也 有 区 分 ， 同 时 每 个 窗口 的 操作 方法 也 有 差别 。 最 常用 的 窗口 为 数据 编辑 窗 
O (Data Editor)、 结 果 浏 览 窗口 (Viewer)、 程 序 编辑 窗口 (Syntax Editor). 


1.3.1 数据 编辑 窗口 


数据 编辑 窗口 (Data Editor) 是 SPSS 提供 的 以 类 似 电 子 表格 形式 创建 、 编 辑 、 浏 览 
数据 文件 的 一 种 直观 方法 .运行 SPSS 后 , 系统 首先 会 自动 打开 数据 编辑 窗口 ,在 一 次 SPSS 
作业 中 必须 而 且 只 能 打开 一 个 数据 编辑 窗口 ， 编 辑 、 浏 览 一 个 数据 文件 ， 这 个 正在 被 编辑 
的 数据 文件 被 称 为 活动 数据 文件 或 者 工作 区 数据 文件 ， 只 有 活动 数据 文件 的 数据 才能 被 分 
析 处 理 。SPSS 的 数据 表 总 是 一 个 直方 形 的 表 ， 表 的 每 一 行 表示 一 个 观察 个 体 (Case)， 每 
一 列表 示 一 个 变量 (Variable)， 表 的 大 小 由 变量 数 和 观察 个 体 数 确定 。 

一 般 情况 下 ， 数 据 表 内 数据 应 以 SPSS 数据 文件 的 形式 保存 ， 最 常 使 用 的 SPSS 数据 
文件 扩展 名 为 “*.SAV”， 保 存 数据 文件 的 同时 也 保存 了 变量 属性 和 变量 值 。 

数据 编辑 窗口 可 以 以 两 种 不 同 的 窗口 形式 显示 、 编 辑 数据 。 两 种 显示 方式 可 以 用 窗口 


" 
< | 
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下 方 的 “Data View" #l “Variable View” 书 签 方便 地 进行 切换 。 

1. 数据 编辑 窗口 (Data View) 

数据 值 按 一 览 表 形 式 在 窗口 内 显示 。 在 数据 编辑 窗口 (Data View) 内 可 以 浏览 、 修改 、 
编辑 数据 值 及 数据 值 标签 。 

窗口 的 主要 内 容 如 下 。 

£j: 代表 观察 个 体 (Case， 例 )， 每 一 行 代表 一 个 被 观察 对 象 或 实例 。 它 由 该 观察 对 
象 的 所 有 属性 (变量 ) 构成 。 

列 : 代表 变量 (Variable)， 每 一 列 代表 被 观察 对 象 的 一 个 特性 或 者 属性 ， 同 一 列 所 有 
值 的 类 型 全 部 相同 。 一 个 变量 是 所 有 观察 对 象 的 某 个 属性 的 集合 。 

数据 格 : 每 个 数据 格 内 为 对 应 观察 对 象 的 某 个 属性 的 观察 值 或 者 数据 值 标 签 , 如 图 1-3 











gasgl [fiuk] 涉 理 状态 | [ 变量 | 
图 1-3 数据 编辑 窗口 


如 图 1-4 所 示 为 数据 编辑 窗口 默认 的 工具 条 ， 可 以 利用 工具 条 中 的 按钮 快速 进入 相应 
的 任务 对 话 框 。 





à 插入 [aw [xm | EI 

T is Ln Tresor [oe m | 数据 | | 数据 TA 

i - ud EH ^| 4 T TLEL «lel 
保存 | | 调 出 对 | | 恢复 t| m | 数据 | 
LL ai 据 例 权重 | | 标签 | 


图 1-4 数据 编辑 窗口 的 工具 条 


有 SSSS 与 统计 分 析 — 


2. 变量 编辑 窗口 〈Variable View) 

变量 编辑 窗口 (Variable View) 是 创建 、 显 示 、 修 改变 量 属性 的 窗口 ， 窗 口内 仅 显 示 
数据 表 中 各 个 变量 的 有 关 属 性 。 行 代表 变量 ， 列 是 变量 的 属性 ， 可 以 定义 、 修 改 有 关 的 变 
量 属 性 。 

变量 属性 包含 : 变量 名 (Name)、 类 型 (Type)、 整 数位 数 (Width)、 小 数位 数 (Decimals )、 
变量 标签 (Label), ZEHRA (Values), KIE (Missing), (APA) 对 齐 Align), 
(每 列 ) 显示 宽度 (Columns)、( 区 间 、 有 序 、 名 义 ) 变量 测度 (Measure) 等 ， 如 图 1-5 
所 示 。 





Free [ 菜单 | | 工具 条 | 















| 浏览 模式 
切换 书 葵 





1-5 ”变量 编辑 窗口 


1.3.2 ”结果 浏览 窗口 


在 第 一 次 分 析 完 成 后 ， 系 统 自 动 打开 结果 浏览 窗口 。SPSS 的 所 有 计算 分 析 结 果 都 显 
示 在 结果 浏览 窗口 (Viewer) 中 。 在 结果 浏览 窗口 内 可 以 浏览 、 编 辑 输出 结果 ， 改 变 输出 
显示 顺序 等 。 通 过 结果 浏览 窗口 还 可 以 将 计算 结果 输出 到 其 他 软件 中 ， 比 如 输出 到 
Microsoft Word 文档 中 。 此 外 ， 在 结果 浏览 窗口 中 还 能 插入 进一步 的 分 析 。 

保存 结果 浏览 窗口 内 容 文件 的 默认 扩展 名 为 “*.SPO”。 为 方便 结果 浏览 ， 还 可 以 选择 
保存 为 “*.HTML” 文 档 格 式 。 

结果 浏览 窗口 分 为 左右 两 个 子 窗口 。 左 边 为 输出 导航 大 纲 窗口 ， 右 边 为 内 容 窗 口 。 


1. 输出 导航 大 纲 窗 口 
输出 导航 大 纲 窗口 (Viewer Outline) 显示 计算 结果 的 输出 大 纲 ,内容 为 输出 结果 条 目 ， 
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条 目 按 分 析 的 统计 量 或 者 统计 图 组 织 。 

该 窗口 按 结果 输出 顺序 组 织 ， 以 树 形 结构 文件 树 显示 。 一 般 地 ， 分 析 题 目 (Title) 或 
者 过 程 名 为 输出 项 目 文件 夹 名 ， 某 个 变量 的 对 应 计算 结果 为 最 终 的 结果 项 目 条 目 。 

导航 大 纲 窗口 可 以 控制 内 容 窗口 的 显示 内 容 。 通 过 鼠标 点 击 大 纲 导 航 窗口 的 项 目 条 目 
可 以 在 不 同 的 输出 结果 中 快速 地 切换 、 浏 览 ; 点 击 文件 夹 折 登 图 标 可 以 显示 或 者 隐藏 某 个 
输出 结果 。 通 过 项 目 条 的 拖拉 操作 ， 可 以 改变 输出 显示 顺序 。 

导航 大 纲 窗口 具有 编辑 功能 ， 可 以 直接 进行 复制 、 删 除 、 粘 贴 等 操作 。 对 项 目 条 的 编 
辑 操作 实际 上 就 是 对 右 侧 内 容 窗口 的 编辑 。 

2. 内 容 窗口 

内 容 窗口 (Viewer Contents) 显示 计算 输出 的 全 部 结果 ( 见 图 1-60. SPSS 的 结果 为 富 
文本 (Rich Text) 结果 ， 它 包含 了 文字 、 图 形 和 表格 等 内 容 ， 输 出 结果 按 分 析 过 程 的 顺序 
组 织 。 












一 — [^ 8o 
| 折 强 文件 夹 rrr o 












DSN Statistics 1 
pense Tas SSS] I 






Frequency Table 






结果 项 目 条 | 






Gender 
NUEEN nem ero mm mL ae") 
q: Percent | Valid Pe Pert 
ad 


218 456 56 456 
544 p44 100.0 
ATA 1000 po.o 
cdm dip d "m 





图 1-6 结果 浏览 窗口 
3. 保存 结果 浏览 窗口 的 内 容 为 SPO 文件 格式 
结果 浏览 窗口 的 内 容 可 以 保存 为 SPSS 结果 输出 文件 格式 (*.SPO)， 保 存 的 结果 包含 
了 大 纲 和 内 容 两 部 分 。 保 存 的 文件 以 后 可 以 在 SPSS 结果 浏览 窗口 中 打开 。 
4. 保存 结果 浏览 窗口 的 内 容 为 其 他 文档 格式 
SPSS 可 以 将 结果 浏览 窗口 的 内 容 保存 为 其 他 应 用 程序 使 用 的 文档 格式 〈 见 图 1-7)。 
这 样 ， 在 需要 浏览 SPSS 结果 时 ， 可 以 不 再 需要 SPSS 软件 ， 就 可 以 直接 用 已 有 的 文档 阅 
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读 器 〈 如 微软 Word. Excel, PowerPoint, HMTL 文档 或 文本 文档 等 ) 来 阅读 。 
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v» 操作 提示 
“File 
Export 
(an | | 输出 六 ETT 
[输出 文档 内 容 | | 输出 文档 格式 | [ 文件 对 话 拒 . 
图 1-7 输出 到 其 他 文件 对 话 杠 
> 操作 选项 说 明 
“Output Document 一 输出 全 部 内 容 ， 包 含 文字 、 统 计 图 、 统 计 表 
JBOutput Document(No charts) ”一 仅 输出 文字 ， 包 括 统计 表 但 不 包括 统计 图 
Charts Only cs ih eH 
“File Name = iH x4 £ X,+ B 
“Options 一 输出 的 图 形 文件 选项 ， 打 开 图 形 选 项 对 话 杠 
“Browse 宁 打 开 文 件 选择 对 话 框 
AII Objects 一 输出 窗口 的 全 部 结果 项 目 
AII Visible Objects 一 输出 窗口 的 全 部 可 见 结果 项 目 ， 被 隐藏 者 不 存在 
“Selected Objects 一 输出 选择 的 项 目 
-HTML file(*.htm) 一 保存 为 HTML 文件 ， 用 WWW 浏览 器 查看 
-人 Text file(*.txt) 之 保存 为 标准 文本 文件 ， 用 记事 本 浏览 
“OWord/RTF file(*.doc) 宇 保存 为 Word 文件 ， 用 Word 浏览 
"BExcel(*.xls) 号 保存 为 Excel 3 4t, M Excel 浏览 
"OPowerPoint(*.ppt) 号 保存 为 PPT 幻灯 片 文件 ， 用 PowerPoint 浏览 
> 操作 选项 说 明 
Export What =k PE he 65 AA 
-File Type 全 选择 保存 的 文档 形式 
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Export 号 选 择 保存 的 范围 
Options 宁 选 择 保 存 的 范围 


(1) 图 形 格式 对 话 框 〈 见 图 1-8) 





图 1-8 输出 文件 中 图 形 格式 对 话 框 


> 操作 选项 说 明 
File Type ”图 形 文 件 格式 
Chart Size 吓 图 形 大 小 
“Chart Options 一 图 形 选 项 
Export Footnotes and Caption 一 输出 图 形 说 明 
“Export all Layers 一 输出 全 部 图 层 


(2) 图 形 大 小 对 话 框 〈 见 图 1-9) 
(3) 图 形 格式 选项 对 话 框 〈 见 图 1-100 


| Lor | 色色 || Gammażžıl | 








i Cua | | 图 修 质 量 ( 正 缩 比 ) | 


图 1-9 输出 文件 中 图 形 大 小 对 话 框 图 1-10 输出 文件 中 图 形 格式 选项 对 话 框 
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5. 编辑 目标 

结果 浏览 窗口 中 的 任何 内 容 都 可 以 修改 。 按 需要 修改 的 内 容 不 同 ， 编 辑 器 又 有 文本 、 
图 形 编辑 器 和 统计 表 编 辑 器 之 分 。 在 不 同 的 编辑 器 下， 操作 方式 略 有 差异 。 文 本 的 修改 最 
为 简单 ， 单 击 选择 后 按 需 要 进行 直接 修改 即 可 ， 操 作 方 式 类 似 于 Word 文档 编辑 器 。 图 形 
和 统计 表 则 使 用 SPSS 内 建 的 编辑 器 来 完成 编辑 。 


> 操作 提示 
怕 通 过 单 击 ， 选 择 相应 的 项 目 或 者 内 容 


JU EUR 
介 按 需要 进行 修改 


6. 编辑 统计 表 

SPSS 的 大 部 分 计算 结果 显示 为 统计 表 ， 在 输出 窗口 中 通过 双击 目标 表 后 打开 统计 表 
编辑 器 ， 可 以 方便 地 进行 统计 表 的 修改 。 例 如 ， 通 过 编辑 统计 表 (Pivot Table 编辑 器 ) 可 
以 改变 统计 表 的 纵横 标 目 安排 ,修改 数字 的 有 效 位 数 ， 修 改编 辑 表 的 标 目 、 标 题 等 。 打 开 
表 后 系统 会 在 主 菜 单 增添 Pivot 和 Format 菜单 来 进行 表 的 有 关 操 作 〈 见 图 1-11). 

(1) 打开 编辑 模式 


* 操作 提示 
听 通 过 单 击 选择 统计 表 
Dk SUM 
D eate HA TC 
] — 
图 1-11 结果 浏览 窗口 的 统计 表 编 辑 菜单 
> 操作 选项 说 明 
“Bookmarks . SHIPS 
"&Transpose Rows and Columns 一 交换 表 的 纵横 标 目 
Move Layers to Rows 号 修改 层 变 量 为 行 变量 
Move Layers to Columns 一 修改 层 变 量 为 列 变量 
Reset Pivots to Defaults 号 恢复 默认 
“OPivoting Trays 一 表 编 辑 器 托盘 
人 他 Go to Layer 一 移动 到 某 层 
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(2) 编辑 表 托 盘 〈 见 图 1-12) 
a 操作 提示 

他 通过 单 击 选 择 统计 表 

BERE 


Pivot 
"BPivoting Trays 








t | [aee gestas | | ceemgum | 


























Dle Eüt Vier Insert PMyot Format e Graphr" Utilities Help 
= rr * 
= ËJ] Descrptves Vand 106 106 
Tie Missing g g 
Notes 
Descriptive Stetietc 
-po 
Table 
g 学 校 
Layers 
Gemas Frequency | Percent 
1 3 
rs 8 15 
学 1| 9 
二 学 5 | 47 
学 6 57 
a 学 1| 3 
ge 8 75 
山洞 小 学 9 85 
土 主 汗 小 学 36 245 
LE le > 236 1 靖 
< à > 
SPSS Processo: eady 


图 1-12 ”结果 浏览 窗口 的 统计 表 托 盘 编 辑 图 I 


利用 编辑 表 托 盘 (Pivoting Trays)， 可 以 通过 简单 的 拖拉 动作 重新 安排 统计 表 的 布局 
和 层次 关系 。 在 统计 表 托 盘 上 图 标 器 表示 已 经 安排 的 变量 ， 前 后 位 置 表示 变量 间 的 层次 
安排 。 比 如 ， 针 对 图 1-12 中 的 表格 ， 将 列 变 量 拖拉 到 行 变量 后 ， 统 计 表 发 生 的 变化 如 图 
1-13 所 示 。 


Frequency 
Percent 
Valid Percent 
Cumulative 
Percent , 
ME Frequency 
Percent 
Valid Percent 
Cumulative 
Percent 
Frequency 
Percent 
Valid Percent 
Cumulative 
Percent 
Frequency 
Percent 
Valid Percent 
Cumulative 
Percent 


1 items selected (O hidden/collapsed) 


图 1-13 ”结果 浏览 窗口 的 统计 表 托 盘 编 辑 图 II 
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(3) 编辑 托盘 变量 


选择 托盘 上 的 某 个 变量 后 ， 通 过 鼠标 右键 的 菜单 操作 ， 可 以 增添 其 他 的 统计 项 目 ， 


变 表 的 一 些 特 性 、 数 字 、 标 签 等 〈 见 图 1-14)。 


Select Table 


Create Graph 


Table Properties 


TableLooks 


Show Dimension Label 
Hide All Category Labels 





图 1-14 ”结果 浏览 窗口 的 统计 表 托 盘 项 目 菜单 


> 操作 选项 说 明 


-Select Table 

Create Graph 

Table Properties 
TableLooks 

“Show Dimension Label 
“Hide All Category Labels 


(4) 编辑 统计 表 属 性 〈 见 图 1-15) 


一 选择 表 

一 增添 统计 图 

全 修改 表 的 属性 
修改 表 的 显示 样式 
全 显示 各 层 标签 

一 隐藏 分 类 项 目标 答 


利用 托盘 选单 或 者 格式 (Format) 菜单 ， 很 容易 修改 统计 表 的 属性 。 


当 操作 提示 
D444 Pivoting Trays 
© 选 择 某 表 变 量 
人 单 击 筷 标 右键 
“Table Properties 
或 者 
Format 
“Table Properties 


> 操作 选项 说 明 


“General 
Footnotes 
Cell Formats 
Borders 
Printing 
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一 一 般 设 置 
一 脚注 

一 单元 格格 式 
SHARR 
cpu 


e 


Row Dimension Labels 


® In Corner 

C Nested 

Column Yidths 

Minimum width for column labels: 
Maximum width for column lebels: 











图 1-15 结果 浏览 窗口 的 统计 表 属 性 


(5) 编辑 单元 格 属性 〈 见 图 1-16) 
利用 托盘 选单 ， 很 容易 修改 统计 表 的 属性 。 














a 操作 提示 
Jib id ded dL DA 
人 双击 鼠标 
他 单 击 选择 菜单 元 格 
“Format 
Cell Properties 
Value | Alignment | Margins | Shading | 
Category: 
E 
i 
Decinals:2 -| 
[^ Adjust format for cell wi 
图 1-16 结果 浏览 窗口 的 统计 表单 元 格 属性 
> 操作 选项 说 明 
Value cde X, 
“Alignment TIFFA 
“Margins "MER 
-Shading 一 阴影 设置 


p 13 


BN 与 统计 分 析 C 


1.8.8 程序 编辑 窗口 


SPSS 是 菜单 操作 和 程序 控制 并 重 的 统计 分 析 系 统 。 除 了 通过 菜单 系统 控制 SPSS 的 运 
行 外 ， 还 可 以 通过 编写 SPSS 程序 来 控制 SPSS 的 运行 。 程 序 编辑 窗口 (Syntax Editor) 就 
是 编写 、 调 试 和 运行 SPSS 程序 的 窗口 ， 如 图 1-17 所 示 。 大 多 数 SPSS 的 功能 可 以 利用 菜 
单 来 完成 ， 但 是 也 有 少数 SPSS 的 功能 只 能 使 用 编写 程序 来 实现 。 通 过 SPSS 程序 ， 可 以 


获得 SPSS 高 级 的 、 自 动 化 和 标准 化 的 数据 分 析 过 程 。 
















* srerererererrerrereesterterresrerrerrerre 


TO 100. 
COMPUTE X*NORMAL (1). 
END CASE. 
END FILE. 
END INPUT PROGRAM. 
EXECUTE. 





DESCRIPTIVES VARIABLES*X. 
GRAPH /HISTOGRAM (NORMAL) =X. 


图 1-17 程序 编辑 窗口 
下 面 是 该 窗口 的 工具 条 按钮 ， 如 图 1-18 所 示 。 


打开 | [打印 | — [mon] [查看 基 例 ] [ex] 





程序 语句 | Pm 


图 1-18 程序 编辑 窗口 的 工具 条 


1.4 ”通过 数据 编辑 窗口 输入 数据 


给 SPSS 输入 数据 是 使 用 SPSS 开始 数据 分 析 的 第 一 步 。 最 简单 、 直 接地 给 SPSS 输入 


数据 的 方法 就 是 在 数据 编辑 窗口 直接 输入 数据 。 
1.4.1 使 用 数据 编辑 窗口 输入 数据 


进入 SPSS 系统 后 ， 系 统 会 自动 打开 数据 编辑 窗口 , 直接 在 数据 编辑 窗口 (Date View) 
内 输入 数据 就 形成 了 工作 区 活动 文件 〈 见 图 1-19)， 该 文件 保存 后 即 为 SPSS 的 数据 文件 。 
在 数据 编辑 窗口 已 有 数据 而 又 需要 输入 新 的 数据 时 可 以 打开 新 的 数据 编辑 窗口 。 
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a 操作 提示 


-File 

“New 

Data 

SPSS 的 数据 文件 按 变量 和 观察 个 体 (Case， 例 ) 组 织 。 在 数据 编辑 窗口 中 ， 每 一 行 
代表 一 个 观察 对 象 ， 对 应 于 调查 研究 中 的 被 调查 对 象 或 者 个 体 ， 列 为 变量 。 

在 数据 编辑 窗口 输入 数据 时 既 可 以 直接 输入 数据 值 而 不 需要 定义 变量 属性 ， 也 可 以 先 
定义 变量 (数据 属性 ) 后 再 输入 数据 ， 还 可 以 先 输入 数据 后 再 定义 变量 属性 。 








| on afi pz VL acne ll scm 
| AA | | 变 和 名 || CIE ARAM | 数据 值 | 
| 数据 格 “| | 编辑 区 | 

















3 Female 
4 Female 04/15/1947 
5 Male 

6 Male ` 
7 Male 956 
8 Female 05/06/1966 
9 Female 01/23/1946 15 P 
10 Female ^ 02/13/1946 | 12! af  $13500 
11 Female ^ 02/07/1950. 16 
12 Male 01/11/1966 ^8 
13 Male 07/17/1960 
14 Female 






















02/26/1949. 
0/29! 1904 









D 5 ë 
iR TF Male MM/ISO4 12, (Clerical 
« ^ Data View X abe ° View pus A MEME T 
SPSS Processor is ready 


图 1-19 数据 编辑 窗口 布局 
在 数据 编辑 窗口 输入 的 数据 ， 必 须 保 存 为 数据 文件 才能 在 以 后 的 分 析 中 使 用 。 


1.4.2 ”定义 变量 


定义 变量 就 是 定义 变量 的 属性 。 变 量 编辑 窗口 是 显示 、 创 建 、 修 改变 量 属 性 的 窗口 。 
变量 属性 包含 : 变量 名 、 类 型 、 宽 度 、 小 数位 、 变 量 标签 、 变 量 值 标签 、 缺 失 值 、 显 示 宽 
度 、 对 齐 、 变 量 测度 〈 见 图 1-20)。 在 创建 变量 时 ， 必 须 指定 的 变量 属性 是 变量 名 和 变量 
类 型 ， 其 他 属性 可 以 省 略 或 者 使 用 系统 默认 定义 。 在 SPSS 中 变量 属性 可 以 随时 按 需 修改 ， 
变量 属性 随 数据 值 同时 保存 在 数据 文件 中 。 


a 操作 提示 
File 
New 
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[SPSS EET p — 





Data 
“Variable View 


Eaployee data. sav Data Editor 
Bie Büt Yer Data Iraazfore bralyre Graphs Utilities Finder telp 


siala mi l>) xc el al ded mam a! 
[ | Name | | Decimals | 


Employee Cod None 
"Gender (f, Female)... None 
Date of Birth None Nene 
Educational Le (0, 0 (Missing))O 
“Employment C (0, D (Missing))0 
Current Salary ($0, missing)... $0 
"Beginning Sala ($0, missing). $0 
Months since {0, missing}... 0 
Previous Expor (0, missing).. None 
Minority Classi (0, No) 9 





1-200 “完成 变量 定义 的 变量 编辑 窗口 

1. 变量 名 的 定义 

。 在 同一 数据 文件 内 ， 变 量 名 不 能 重复 。 

。 首 字符 必须 为 字母 或 者 汉字 。 变 量 名 不 能 以 小 数 点 “.” 或 者 下 划 线 “_” 结 尾 。 

。 变 量 名 首 字符 之 后 的 其 他 字符 除 不 能 采用 “? ”,“*”,“!”,“”” 及 空格 5 种 字 
符 外 ， 可 以 采用 其 他 任何 能 用 的 字符 。 

。 变量 名 长 度 在 1~64 个 字符 之 间 。 如 果 全 部 采用 汉字 则 最 多 为 32 个 汉字 。 

e ALL, AND, OR, NOT, EQ, NE, GE, GT, LT, LE, TO, WITH, BY 等 名 字 是 系统 保留 名 
字 ， 不 能 作为 变量 名 。 


。 英 文字 母 作为 名 字 时 ， 系 统 并 不 区 分 大 小 写 ， 但 系统 在 结果 显示 时 会 保留 原 输入 的 
大 小 写 形式 。 

。 长 名 字 如 果 在 输出 显示 时 需要 折 行 ， 系 统 会 自动 按 名 字 中 的 下 划 线 “_” 或 者 “.” 
位 置 折 行 。 

。 首 字符 为 “$” 是 系统 变量 名 。 


2. 变量 类 型 、 宽 度 和 小 数位 的 定义 
指定 每 个 变量 的 数据 值 类 型 ， 系 统 默认 的 变量 类 型 是 数字 类 型 。 新 建 变量 时 除非 特别 
说 明 是 其 他 类 型 ， 否 则 都 是 数值 类 型 。SPSS 提供 8 种 数据 类 型 可 供 选择 ， 如 表 1-1 所 示 。 


表 1-1 SPSS 提供 的 8 种 数 类 型 


数据 值 类 型 数据 窗 显示 形式 数据 编辑 窗口 可 以 输入 的 数据 格式 


数值 型 (Numeric) | 数值 型 标准 数据 形式 ， 标 准 数值 类 标准 数据 123.45 
型 ， 系 统 默认 数据 类 型 科学 计数 法 数据 1.2345e2 


去 点 数值 型 数值 型 数据 窗口 显示 为 数值 整数 每 标准 数据 123.45 
(Comma) 


千 进 位 (3 位 数字 ) DSA | 科学 计数 法 数据 
16 | 






















1.2345e2 





隔 ， 小 数位 用 圆 点 分 隔 带 有 逗 点 的 数据 格式 1,2,3.45 
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X 
| x =” (| mamam 数据 窗 显示 形式 数据 编辑 窗口 可 以 输入 的 数据 格式 


圆 点 数值 型 (Dot) 数值 整数 每 千 进位 (3 位 数字 ) | 科学 计数 法 数据 
用 圆 点 分 隔 ， 而 小 数位 用 逗号 | 带 有 圆 点 的 数据 
分 隔 不 带 有 圆 点 的 数据 
科学 计数 法 型 使 用 E 记号 和 有 符号 十 进 制 “| 标准 数据 123.45 
(Scientific notation) RIEGO AE 科学 计数 法 E 记号 数据 1.2345e2 
科学 计数 法 D 记号 数据 1.2345d2 
科学 计数 法 + 记号 数据 1.2345+2 
科学 计数 法 -记号 数据 1.2345-2 
日 期 型 (Date) 按 指定 的 日 期 、 时 间 格 式 显 示 | 按 日 期 时 间 的 指定 格式 顺序 输入 日 
日 期 。 选 择 日 期 型 后 ， 日 期 时 | 期 时 间 数 值 ， 可 以 使 用 “/”, “\”， 
间 的 显示 格式 在 列表 单 中 选 ”|“-”,“.”,“，” 和 空格 分 隔日 期 
时 间 数 字 
美元 记号 型 标准 数据 
(Dollar) i 科学 计数 法 数据 


带 有 去 点 的 数据 格式 
习惯 金融 记号 型 数值 型 按 系 统 选项 金融 页 定义 的 金 
(Custom currency) 融 格式 显示 数据 值 


带 有 或 不 带 有 “$” 符 号 
字符 型 (String) 字符 型 , 变量 值 可 以 输入 任何 字符 〈 数 字 、 字 母 、 


为 非 数值 型 ,不 符号 、 空 格 、 汉 字 和 特殊 字符 等 ) ， 
能 进行 计算 最 大 长 度 可 存储 256 个 字符 





当 操作 提示 
但 单 击 “变量 类 型 ”(Type ) 弹出 类 型 定义 对 话 框 ( 见 图 1-21 )， 选 择 定义 。 





Variable Type 


mam 
BASE 
mammam | 
科学 计数 法 型 

日 期 型 
美元 记号 型 





图 1-21 定义 变量 类 型 对 话 框 (数值 型 ) 


> 操作 选项 说 明 
“Width c—EGUEE 
Decimal Places 全 定义 小 数位 
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(1) 选择 日 期 型 后 的 变量 类 型 对 话 框 ( 见 图 1-22) 





[umwpe [emtia 
图 1-22 定义 变量 类 型 对 话 框 ( 日 期 型 ) 


日 期 格式 中 m 代表 月 份 ，d 代表 日 数 ，y 代表 年 份 ， 而 字母 个 数 代表 位 数 ， 如 yyyy 
代表 4 位 年 份 。 
(2) 选择 美元 记号 型 后 的 变量 类 型 对 话 框 〈 见 图 1-23) 





E 
quu 
# 
guum un 
nuu 


sH. 
snnm HE 





图 1-23 ”定义 变量 类 型 对 话 框 ( 美 元 记号 型 ) 
(3) 选择 字符 型 后 的 变量 类 型 对 话 框 〈 见 图 1-24) 





f t | 宽度 〈 可 存储 字符 效 ) 


图 1-24 ”定义 变量 类 型 对 话 框 〈 字 符 型 ) 


3. 变量 测度 的 定义 
SPSS 把 变量 测度 分 为 3 种 , 即 尺度 型 (Scale)、 等 级 型 (Ordinal) 和 名 义 型 (Nominal )， 
它们 分 别 对 应 于 定量 (区间)〉 变量， 等 级 (有 序 ) 变量 和 定性 (XO 变量 。 
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该 变量 属性 影响 以 下 SPSS 分 析 过 程 。 
e 影响 对 话 框 内 变量 列表 (如 某 些 统计 分 析 时 ， 变 量 列表 只 显示 尺度 变量 类 型 )。 
e 影响 统计 制 表 与 统计 制图 。 分 析 中 等 级 型 和 名 义 型 按 分 类 资料 处 理 ， 进 而 影响 坐标 
轴 的 尺度 定义 方法 。 
e 影响 SPSS 的 决策 树 分 析 CAnswer Tree). 
a 操作 提示 
DAE “KEME” (Measure ) 按钮 ， 从 列表 中 选择 对 应 属性 ( 见 图 1-25 )。 


Eaployt iat a F 
Hile Edit View Data Transform Amilyre Graphs Wilities Window Help ` 


2g ml oll || a Ele] manta 
E [ Missing | 


Employee Cod None 
(f, Female) None 
None 


as 


8 
8 
8 
8 
8 
8 





图 1-25 在 变量 编辑 窗口 定义 变量 测度 


.变量 标签 定义 

采用 长 达 256 个 字符 (128 个 汉字 ) 对 变量 做 出 解释 或 标注 ， 可 以 采用 任意 能 输入 
的 字符 标签 。 

5. 变量 值 标签 

变量 值 标签 用 来 解释 变量 值 的 含义 ， 此 功能 对 等 级 变量 或 者 定性 变量 编码 时 尤其 有 
用 。 变 量 值 标签 定义 后 ， 如 果 选 择 了 View 菜单 的 “Value Labels”， 则 标签 值 将 显示 在 数 
据 编辑 窗口 中 。 

变量 值 标签 的 最 大 长 度 可 达 60 个 字符 (30 个 汉字 )。 但 字符 型 变量 长 度 超过 8 个 字符 
就 不 能 使 用 值 标签 属性 。 为 达到 多 行 输出 显示 的 目的 ， 可 以 在 标签 内 插入 “\n” 来 强制 系 
统 换行 显示 输出 。 
d 操作 提示 

DAE “B AF22” (Values) 弹出 值 标签 定义 对 话 框 ( 见 图 1-26 和 图 1-27 )。 


| 19 





图 1-26 字符 变量 定义 变量 值 标签 对 话 框 图 1-27 数值 变量 定义 变量 值 标签 对 话 框 
为 了 在 数据 编辑 窗口 显示 数据 值 的 标签 , 可 在 该 窗口 单 击 View 下 拉 菜 单 , 选取 “Value 
Labels", #HËJ] 1-28 所 示 。 此 外 ， 在 定义 了 值 标签 的 变量 列 中 ， 可 在 数据 编辑 窗口 的 每 个 
单元 格 使 用 [| 修改 该 变量 取 值 。 数 据 值 标签 的 使 用 效果 如 图 1-29 所 示 。 


udi! m o|- tib] J Tiri lassi vial 
7 bdate 04/26/1956 





S Win 5 


v Status Bar 
Toolbars 


Fonts. 





Variables Ctr1+T 


图 1-28 ”数据 编辑 窗口 视图 (View) 菜单 图 1-29 数据 值 标签 的 使 用 效果 图 


6， 自 定义 缺失 值 


SPSS 定义 了 两 类 缺失 数据 ， 一 类 为 系统 缺失 数据 (System Missing)， 是 指 没有 明确 
数据 值 的 变量 ， 常 常 是 在 观察 对 象 的 某 变 量 值 没有 观察 到 的 情况 下 出 现 。 对 于 数值 型 变量 
系统 用 “.” 来 代表 缺失 数据 。 系 统 缺 失 数据 不 参加 计算 分 析 。 

男 一 类 为 用 户 定义 的 缺失 数据 (User Missing)， 该 缺失 数据 由 缺失 数据 值 属性 定义 ， 
所 以 又 称 为 自 定义 缺失 值 。 一 般 用 于 定义 知道 明确 原因 ， 而 又 不 能 参加 分 析 的 数据 值 。 在 
分 析 时 ， 用 户 自 定义 的 缺失 数据 值 同 样 不 参加 计算 分 析 。 

e 可 以 定义 “单个 缺失 值 ”( 最 多 3 个 “范围 缺失 值 ”及 “一 个 连续 范围 加 一 个 单 

个 缺失 值 ”3 种 形式 的 缺失 值 。 
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° 字符 型 变量 的 长 度 超过 8 个 的 不 能 使 用 缺失 值 属 性 。 

。 字符 型 数据 的 缺失 值 必须 明确 定义 ， 任 何 字符 型 变量 的 字符 默认 都 是 合法 值 ， 包 括 
空格 (SPACE) 和 空 值 (NULL)。 为 定义 空格 和 空 值 为 缺失 数据 ， 必 须 在 离散 型 缺 
失 数 据 位 置 输入 一 个 空格 


> 操作 提示 


© 在 变量 编辑 窗口 中 ， ide bere iiec ETEA. 弹出 的 缺失 
值 定义 对 话 框 如 图 1-30 所 示 。 









| PECORE UU 


连续 型 缺失 值 
| 加 离散 型 缺失 值 





Range plus one optional discrete missing value 








ijt KE ] wee etc] [act LB] 
K 1-30 用 户 缺 失 数据 值 定 义 型 对 话 框 

7. 显示 列 宽 

控制 数据 编辑 窗口 的 数据 值 或 者 数据 值 标签 显示 输出 时 占用 的 列 宽度 。 如 果 定 义 宽度 
小 于 数据 宽度 ， 则 在 数据 编辑 窗口 显示 为 星 号 “***”。 通 过 拖拉 数据 编辑 窗口 列 变 量 名 称 
的 边界 ， 也 可 以 实现 列 宽度 的 改变 。 
a 操作 提示 

人 单 击 列 (Columns) 直接 输入 。 

8. 显示 对 齐 方 式 

控制 数据 编辑 窗口 的 数据 值 或 者 数据 值 标 签 显 示 输出 时 的 对 齐 方式 ( 见 图 1-31)。 系 
统 提 供 3 种 对 齐 方 式 ， 即 左 对 齐 、 右 对 齐 和 居中 。 对 于 数值 型 变量 默认 为 右 对齐 ， 对 于 字 
符 型 变量 默认 为 左 对 齐 。 
x 操作 提示 

人 © 单 击 对 齐 方式 (Align) 按钮 选择 。 
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| 7|Beginning sam, missing}. t ' 





1-31 在 变量 编辑 窗口 定义 数据 值 对 齐 方式 


14.3 ”数据 输入 实例 


某 医生 调查 某 地 区 儿童 生长 发 育 的 情况 ， 共 调查 了 106 名 7 岁 儿 童 , 调 
查 表 如 图 1-32 所 示 ， 请 利用 SPSS 数据 编辑 窗口 建立 数据 文件 。 


某 时 某 地 区 学 龄 儿童 体检 表 


姓名 : FR: 岁 年级， "xh B 女 


公斤 ， 肺 活 量 ， A 








图 1-32 某 医生 设计 的 调查 表 (不 带 特殊 输入 数据 格式 ) 


该 研究 共 调 查 106 名 儿童 ， 则 可 知 SPSS 数据 文件 应 该 有 106 行 , 而 每 名 儿童 的 学 号 、 
姓名 、 年 龄 、 年 级 、 性 别 、 身 高 、 体 重 、 肺 活 量 等 指标 即 为 SPSS 数据 文件 的 变量 。 
实际 调查 完毕 后 的 调查 表 1 (被 调查 对 象 的 学 号 为 30130) 如 图 1-33 所 示 。 


某 时 某 地 区 学 龄 儿童 体检 表 


学 号 :30130 — 姓名: _ 高 明 娟 FR: O ?7 S 年 级 o A S 对 


体检 结果 
身高 ， 1235 EX, 体重 159 AF., BER. — 800 毫升 











图 1-33 某 医 生 回收 的 调查 表 (不 带 特殊 数据 输入 格式 ) 
对 106 张 调查 表 (106 名 儿童 一 个 人 一 张 表 ) 整理 后 得 到 的 一 览 表 (部 分 ) 如 图 1-34 
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所 示 。 资 料 保存 在 datal-1.sav (datal-1.txt，datal-1.xls〉 中 ( 见 配 书 光 盘 )。 


30130 高 明 娟 7 2 Z 123.5 15.9 800 
30087 陈 思 好 7 2 Z 115.8 15 1100 








40041 ME 7 1 K 125.3 19 700 
40114 程 蝴 7 1 X 118.2 17 600 
30077 TÈS ? 2 X 115.2 16.2 900 






图 1.34， 某 医生 调查 表 数 据 汇总 后 的 一 览 表 
a 操作 提示 
File 
New 


Data. - 
人 直接 在 数据 编辑 窗 口 输入 数据 


在 SPSS 数据 编辑 窗口 (Data View) 直接 输入 数据 的 特点 如 下 。 
。 变量 名 系统 自动 定义 ， 变 量 名 顺序 为 VAR00001，VAR00002 等 。 

。 数值 类 型 总 是 按 默认 显示 精度 显示 〈F8.2 格式 )， 即 窗口 显示 8 位 宽 、2 位 小 数 。 | 
° 为 了 正确 输入 汉字 ， 必 须 在 第 一 次 输入 的 汉字 前 添加 字母 或 者 其 他 的 非 数字 符号 。 
第 一 次 输入 的 “多 余 ” 字 符 待 系统 能 够 正确 识别 为 字符 类 型 后 再 将 该 字符 去 掉 。 

° 字符 类 型 数据 必须 在 第 一 次 输入 时 按 最 宽 字符 输入 , 否则 后 续 输入 字符 超过 第 一 次 

输入 的 宽度 时 无 法 输入 。 
。 为 方便 计算 ,最 好 首先 完整 输入 第 一 例 的 所 有 数据 值 , 达到 简单 定义 变量 属性 的 目的 。 
。 需要 增加 、 删 除 或 者 修改 数据 值 或 者 数据 例 ， 可 以 在 数据 编辑 窗口 直接 操作 。 
° 输入 完毕 后 ， 一 定 要 保存 为 文件 ， 才 能 在 以 后 的 分 析 中 使 用 。 
完成 全 部 数据 输入 后 的 数据 表 如 图 1-35 所 示 。 


Ld | `L ll Al Ei z Essi [s Ql 
VAROOQ08 


YAROOOD1 WE VAR00003 Mesh. Loren sssi Sosa, ^ 
3008800 ] % . 
= i 













Ed 1-35 f 1-1 数据 输入 完成 后 的 数据 表 窗 口 
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某 医生 调查 某 地 区 106 名 7 岁 儿童 生长 发 育 的 情况 ， 调 查 表 如 图 1-36 
所 示 。 


某 时 某 地 区 学 龄 儿童 体检 雪 


学 校 : 年 级 : 学 号 ， 姓名 ， 
性 别 : 男 女 出 生日 期 _ 年 月 日 


体检 结果 
身高 : 厘米 ， 体 重 : 公斤 ， 肺 活 量 : 








图 1-36 某 医生 设计 的 调查 表 〔 带 特殊 数据 输入 格式 ) 


请 利用 SPSS 数据 编辑 窗口 建立 数据 文件 ， 资 料 保 存在 datal-2.sav (datal-2.txt， 
datal-2.xls) 中 〈 见 配 书 光 盘 )。 

该 例子 数据 情况 与 例 1-1 很 相似 ， 但 由 于 出 生日 期 是 日 期 时 间 数 据 ， 不 能 直接 在 数据 
编辑 窗口 输入 , 必须 先 定义 变量 属性 后 才能 进行 数据 录入 。 此 外 , 各 学 校 的 中 文 名 称 元 长 ， 
输入 时 费时 且 容 易 出 错 ， 为 简化 输入 工作 和 以 后 分 析 的 简便 ， 考 虑 将 学 校 和 性 别 以 编码 方 
式 输入 。 

实际 调查 完毕 后 的 调查 表 〈 被 调查 对 象 的 学 号 为 30130) 如 图 1-37 所 示 。 


某 时 某 地 区 学 龄 儿童 体检 表 


学 校 ， 土 主 镇 小 学 年 级 ，_? 35: 30130 姓名 : _ 高 明 娟 _ 
性 别 : 男 4 出 生日 期 994 03 H 1H 





1-37. 某 医生 回收 的 调查 表 《〈 带 特殊 数据 输入 格式 ) 


当 操作 提示 
JOE SUIS 


将 学 校 和 性 别 编码 ， 定 义 编码 表 如 表 1-2 所 示 。 


表 1-2 学 校 和 性 别 编码 表 


1= 保 农 小 学 ，2= 陈 家 桥 镇 小 学 ，3= 二 塘 小 学 ，4= 凤 凰 镇 小 学 ，5= 虎 溪 镇 小 学 ，6= 井 口 小 学 ，7= 青 木 关 


镇 小 学 ，8= 山 洞 小 学 ，9= 土 主 镇 小 学 ，10= 西 永 镇 小 学 ，11= 新 发 小 学 ，12= 玉 屏 小 学 ，13= 曾 家 镇 小 学 





d 操作 提示 
DRAE 
整理 原始 调查 表 的 内 容 如 下 。 
e 按 编码 表 给 调查 表 进 行 编码 ， 并 在 调查 表 上 写 出 相应 的 编码 。 
° 按 可 输入 的 数据 输入 形式 整理 数据 值 的 输入 格式 ， 并 在 调查 表 上 写 出 输入 数据 值 。 
整理 后 的 调查 表 如 图 1-38 所 示 (请 对 比 原始 调查 表 和 编码 完成 后 的 调查 表 )。 


AIR SC DE e LPS 





9| 
FE LEINE VEL 010 39. 3030, 姓名 ， AAE 


性 别 ， 男 Q BB 99 o3 B 3) B | O3/31/99 | 







1. 
体检 结果 CA x & 
BE. 1235 “厘米 , 4E. — 01059 RAA IEE: — so —— 毫升 


编码 结果 ， 以 该 编码 作为 输入 值 ， 简 化 输入 | | 数据 输入 形式 


图 1-38 某 医 生 经 整理 后 回收 的 调查 表 ( 带 特殊 数据 输入 格式 ， 包 含 编码 值 ) 











> 操作 提示 
-File 
“New 
Data 
Variable View 
"© 定 义 各 变量 属性 


例 1-2 数据 SPSS 音量 编辑 窗口 定义 变量 完毕 后 的 窗口 ， 如 图 1-39 所 示 。 


fle Edit Vier Date Transforn Analyze Graphs Utilities Window Help 
uie S| <|] =k] | tel BRR a 
EE 


Numeric ER {1, 保 农 小 学 ) Nominal 
Numeric (t. 1 年 级 } | | Nominal 
Numeric None Scale 
String ( ,None Nominal 
Numeric | En] n. X). i | Nominal 
Date ‘None | Scale 
Numeric 5 TÉ (cm) None f Scale 
Numeric 体重 (kg) ‘None Scale 
Numeric 肺活量 (m) “None Nominal 








图 1-39 fl 1-2 数据 SPSS 变量 编辑 窗口 定义 变量 完毕 后 的 窗口 
例 1-2 数据 定义 学 校 值 编码 定义 窗口 ， 如 图 1-40 所 示 。 
例 1-2 数据 定义 性 别 变量 值 编码 定义 窗口 ， 如 图 1-41 所 示 。 
例 1-2 数据 定义 出 生日 期 变量 数据 类 型 定义 窗口 ， 如 图 1-42 所 示 。 
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图 1-41 f 1-2 数据 定义 性 别 变量 值 编码 定义 窗口 





图 1-42 f 1-2 数据 定义 出 生日 期 变量 数据 类 型 定义 窗口 


x 注意 :SPSS 数据 编辑 窗口 并 没有 提供 和 中 文 日 期 格式 相 一 致 的 日 期 形式 
` ( 即 年 /月 /日 格式 )， 所 以 只 能 选择 最 接近 的 mm/dd/yy ( 月 /日 /年 ) 格式 ,为 
方便 计 ， 选 择 两 位 年 份 。 但 在 SPSS 程序 中 可 以 使 用 对 应 的 数据 格式 。 


a 操作 提示 


Data View 
人 直接 在 数据 编辑 窗口 输入 数据 


完成 全 部 数据 输入 后 的 数据 表 〈 显 示 值 标签 如 图 1-43 所 示 


° 


Dle Eit yiee psta Tresfas dealyre Graphs Wilities Wieder Help 


salai a olo SIUE Entrer dimid @| 
B. Xx 7 
















š: ot EXER 
38388385E 


a 


(ties. sd i'i feug mm/dd/yy 
rg Hess | 


Kd 1-43 例 1-2 数据 完成 输入 后 的 数据 浏览 窗口 (显示 数据 值 标签 ) 
26 | 


m EN 


15 SPSS 数据 文件 的 存 取 


SPSS 具有 强大 的 数据 处 理 和 管理 能 力 , 不 仅 能 够 直接 使 用 SPSS 的 数据 编辑 窗口 输入 
数据 ， 而 且 能 够 操作 SPSS 的 数据 文件 ， 还 能 直接 存 取 其 他 应 用 系统 的 数据 文件 。 此 外 ， 
SPSS 内 置 SQL 语言 ， 能 够 与 大 型 数据 库 系统 进行 完美 的 联机 操作 。 


1.5.1 ” 存 取 保存 的 SPSS 文件 


SPSS 创建 的 文件 类 型 有 多 种 ， 不 同 的 文件 类 型 服务 于 不 同 的 目的 ， 在 不 同窗 口内 保 
存 和 打开 ， 这 些 文件 类 型 统称 为 SPSS 内 部 文件 。SPSS 主要 的 文件 类 型 有 4 种 ， 即 : 

e 数据 文件 (Data)， 其 扩展 名 为 .SAV; 

e 命令 程序 文件 CSyntax)， 其 扩展 名 为 .SPS; 

e 输出 结果 文件 (Output)， 其 扩展 名 为 .SPO 或 者 .RTF; 

e 脚本 程序 文件 (Script)， 其 扩展 名 为 .SBS; 

。 此 外 ，SPSS 的 数据 文件 还 有 主机 交换 文件 (.POR)， 以 及 老 版 本 的 SPSS/PC+ 的 数 

据 文件 类 型 SYS). 
其 他 数据 文件 类 型 ， 则 称 为 外 部 数据 文件 或 者 其 他 类 型 数据 文件 Other). 


1.5.2， 读 取保 存 的 数据 文件 

无 论 是 SPSS 数据 文件 还 是 外 部 数据 文件 类 型 ， 读 取 数 据 文件 的 操作 方式 相似 。 
a 操作 提示 

File 

“Open 


Data 
人 打开 (Open) 


在 数据 编辑 窗口 打开 文件 及 其 子 菜单 ， 如 图 1-44 所 示 。 















打开 数据 库 Open Datak 
法 文本 文件 数据 | Bead Text Bata 


保存 
另存 为 
未 记 文 件 为 只 证 
显示 数据 文件 信息 | Display Data File Information 
缓存 数据 ache Data 
和 止 处 理 
切换 服务 器 Switeh Server 


2p ET FCR, 

打印 

Bun Recently Used Data 

最 近 使 用 的 文件 | Recently Used Files 
退出 








Exit 


图 1-44 在 数据 编辑 窗口 打开 文件 及 其 子 菜单 
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DIN 与 统计 分 析 — 


SPSS 可 直接 打开 不 同类 型 的 数据 文件 。 这 些 数据 文件 类 型 和 创建 这 些 数 据 文件 的 应 
用 程序 如 表 1-3 所 示 。 


表 1-3 文件 扩展 名 和 相应 的 应 用 程序 表 


| 
| 
O — Due —— 5 5 ÀÉÀ — 
标准 文本 数据 CASCI) 标准 文本 编辑 器 ， 如 记事 本 。 无 格式 数据 文件 


1.5.3” 读 取 Excel 电子 表格 数据 文件 


SPSS 可 以 直接 使 用 微软 Excel 电子 表格 版 本 5 以 后 建立 的 数据 文件 .但 需要 注意 Excel 
电子 表格 数据 文件 最 好 符合 数据 库 文件 建立 的 标准 方式 ， 即 首 行 为 变量 名 ， 同 列 数据 类 型 
相同 。 

SPSS 读 取 Excel 数据 文件 的 方式 如 下 。 

e 列 对 应 于 SPSS 变量 ， 列 数据 类 型 和 宽度 定义 了 SPSS 的 变量 类 型 和 宽度 。 

e 混合 列 〈 如 既 有 数值 数据 单元 格 又 有 字符 数据 单元 格 ) 被 转化 为 SPSS 字符 变量 。 

e° 数值 列 空 单元 格 被 填充 为 系统 缺失 值 。 f 

e 首 行 被 作为 变量 名 时 ， 最 大 可 能 转化 为 SPSS 变量 名 ， 如 果 不 能 完全 使 用 原 列 名 作 

为 变量 名 ， 则 原 列 名 同时 定义 为 转化 后 的 变量 的 变量 标签 。 
* 操作 提示 

“File 

“Open 

Data 



















28 | 


JO 3 99 tH Excel ( *.xls ) 
VO: AE 1 265 383 SCAT- 
人 打开 (Open) ( LB] 1-45 ) 


首 行 作为 变量 名 | | 读 取 的 表单 。“ 数据 单元 格 范围 | 


Opening Excel Data Spure 


Worksheet. | ch1d2 [A1:L107] 





| 字符 类 型 单元 格 最 大 长 度 


图 1-45 ”打开 Excel 文件 选项 对 话 框 


> 操作 选项 说 明 

Read variable names 一 指定 是 否 首 行 作为 变量 名 。 选 择 后 第 一 行 单元 格 内 容 作 
from the first row of 为 变量 名 ， 不 符合 SPSS 变量 名 命名 规则 的 转换 为 符合 
data 规则 的 ， 否 则 使 用 默认 的 名 字 V+n， 其 中 n 为 变量 序号 

Worksheet 一 选择 读 取 电 子 表格 文件 的 表单 名 。 默 认 读 取 第 一 个 表单 

“Range 一 指定 数据 表格 单元 范围 

-Maximum width for ”一 指定 单个 单元 格 最 大 能 容纳 的 字符 数量 (RURKA 
string columns 32KB )。 数 据 单元 格 是 字符 内 容 或 者 混合 数据 形式 时 ， 


转化 为 SPSS 字符 变量 


1.5.4” 读 取 Access 数据 库 (ODBC 数据 接口 ) 


理论 上 讲 ，SPSS 能 够 使 用 任何 数据 库 或 者 数据 源 ， 前 提 是 必须 安装 符合 ODBC 工业 
标准 的 数据 库 驱 动 程序 。 

在 Windows 系统 下 ，ODBC 数据 源 管理 器 管理 数据 库 驱 动 程序 。 不 同 的 数据 源 (数据 
BE) 有 不 同 的 使 用 方式 ， 有 的 可 能 需要 用 户 名 和 密码 ， 联 机 使 用 的 还 需要 指定 数据 库 服务 
器 位 置 CIP 地 址 ) 和 服务 端口 。 具 体 的 数据 库 操作 请 查看 相应 的 数据 库 操作 手册 或 者 询问 
数据 库 管理 员 。 

数据 库 向 导 是 SPSS 提供 的 可 视 化 SQL 编写 工具 , 其 目的 是 用 可 视 化 的 操作 , 由 SPSS 
生成 SQL 语言 程序 ， 编 写 出 复杂 的 数据 库 查询 语句 ， 完 成 从 数据 源 抽取 数据 。 
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DEN 与 统计 分 析 


下 面 通过 读 取 Access 数据 库 介 绍 基于 ODBC 数据 源 的 SQL 基本 使 用 方法 。 
用 例 1-2 数据 建立 Access 数据 库 ， 数 据 库 文件 名 为 ch1d2.mdb， 数 据 表 
名 为 ch1d2， 请 用 SPSS 读 取 数据 表 。 


* 操作 提示 ( 打开 数据 库 向 导 ) 
File 


Open Database 
New Query ( WA 1-46 ) 


Her , 
Open » 





jpan Database ld Ner Query SQL fr if] 

Bead Text Data. Edit Query IS, SQL €i] 
i5 fTSQL ftii] | 

Save Ctrl4S Re Boy xe 


Seve Àx 


Display Date File Information » 
Cache Data 
Switch Server 


Print Preyiew 
Print Ctrl+P 





Recently Used Data » 


图 1-46 打开 数据 库 菜单 及 其 子 菜 单 


* 操作 提示 ( 选择 数据 源 ) 
“MS Access Database ( 见 图 1-47 ) 





图 1-47 数据 库 向 导 选择 数据 源 对 话 框 


> 操作 选项 说 明 


数据 源 列表 : 选择 相应 的 数据 源 ( 本 例 选 择 MS Access Database )。 数 据 源 因为 用 户 
机 安装 的 数据 库 驱 动 程序 不 同 而 有 所 区 别 ， 数 据 源 列 表 会 列 出 所 有 的 DSN 文件 名 。 
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dBASE Files 号 按 数据 库 方式 ， 读 取 DBF 文件 

“OExcel Files ”号 按 数据 库 方式 ， 读 取 Excel 文件 

“MS Access Database ik. Access 数据 库 

“Osqlserver ik: MS SQL Server 数据 库 

"Add Data Source 一 打开 系统 ODBC 数据 库 驱 动 程序 管理 器 ， Ska 
理 数 据 源 


a 操作 提示 ( 登录 数据 库 ) 
人 选择 chld2.mdb 数据 库 文 件 ( 见 图 1-48 )。 


Access 数据 库 保 存在 文件 扩展 名 为 .MDB 的 数据 库 文件 内 ， 选 择 相应 的 数据 文件 。 


| ODBC4 x fi | 






fe Program Files tS PSSXch1d2 mdb 


Lo | Gol] 





图 1-48 数据库 向 导 选择 数据 库 文件 对 话 框 


> 操作 选项 说 明 
Database . 一 数据 库 文件 
“Browse 宇 打开 文件 选择 对 话 框 


a 操作 提示 ( 选择 数据 表 和 变量 ) 
人 选择 chld2 ( 见 图 1-49 )。 


=== Ó—— Pe ———— =>. L 
VOR n EDS RAER Lm TEYHEUN CBE i 


Select Da a 





Ez==ə]r=>e j| x | m 
Fiet HY s] k 


图 1-49 ”数据库 向 导 选 择 数据 表 和 变量 对 话 杠 
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与 统计 分 


窗口 的 左 侧 为 数据 库 的 所 有 表单 、 变 量 列表 ， 窗 口 的 右 侧 为 已 选择 的 变量 。 


> 操作 选项 说 明 | 
D+ 一 展开 数据 表 ， 列 出 数据 表 内 的 全 部 变量 
D 一 折 本 数据 表 ， 隐 藏 数据 表 变 量 
他 变量 名 双击 一 选择 或 者 取消 该 变量 
他 数据 表 名 双击 一 选择 数据 表 内 全 部 变量 


当 操作 提示 ( 定义 数据 表 间 的 关联 关系 ) 
听 通 过 表 间 变量 的 拖拉 操作 建立 表 的 关联 关系 ( 见 图 1-50). 


Specify Relationships 
pe Fra 小 ; 











图 1-50 数据库 向 导 定 义 表 间 关 联 关系 对 话 杠 


如 果 选 择 的 变量 在 多 个 数据 表 内 ， 则 会 进入 数据 表 间 的 关系 对 话 框 。 必 须 定义 数据 表 
间 的 关联 关系 。 在 默认 情况 下 ，SPSS 自动 按 不 同 数据 表 的 同名 变量 关联 数据 表 ， 表 间 相 
连 的 线条 表示 表 间 的 关联 关系 。 


> 操作 选项 说 明 
Auto Join Table ”三 自动 按 不 同 数据 表 的 相同 变量 名 关联 数据 表 
人 变量 名 号 选择 菜 一 数据 表 的 某 一 变量 名 , 则 和 饼 标 变 为 手 形 , 把 它 拖拉 到 


另 一 数据 表 的 关联 变量 名 上 , 释放 鼠标， 则 两 个 变量 间 会 有 线 
条 连接 ， 表 示 两 个 表 间 的 关联 关系 已 经 建立 
DRA + Delete 号 选择 关联 线条 后 ， 按 删除 键 (Delete 键 ) 则 删除 该 关联 关系 


*» 操作 提示 (选择 数据 例 ) 
听 指 定 查 询 条 件 ， 读 取 满 足 特 定 条 件 的 数据 例 ( 见 图 1-51 )。 
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”概述 ENG 





rieved Cases 
etwa tet 


* retri: y SI 
tions can be added to «x 
«st date and tise val 


pecifying xelection|eriteria. 
expression by reggimg «ad dropping inte a c 
juez 








图 1-51 数据 库 向 导 定义 数据 选择 条 件 对 话 框 


> 操作 选项 说 明 
Criteria: 数据 抽取 规则 


“©Expression 


“Relation 

Use Random Sampling: 随机 抽样 
"BUsing random sampling 
Native random sampling 

SPSS random sampling 
“Approximately 

Exactly (M) cases from (N) cases 


d 操作 提示 (JEX SPSS 变量 属性 ) 


=SQL 条 件 表达 式 ， 在 抽取 规则 中 有 两 个 列 ， 分 
别 代表 比较 表达 式 的 左 侧 和 右 侧 。 可 以 直接 输 
入 SQL 表达 式 ， 也 可 以 用 四 选择 

= 一 SQL 比较 符 ， 表 示 两 个 SQL 表达 式 间 的 关系 


号 使 用 随机 抽样 的 方法 抽取 例 数 

一 由 数据 库 完成 随机 抽样 

= H SPSS 完成 随机 抽样 

全 近似 抽取 的 百分比 
SAARA N 的 例 数 中 抽取 M 例 


6 定义 转化 为 SPSS 后 对 应 的 变量 名 和 变量 属性 。 


> 操作 选项 说 明 


Result Variable Name 
Data type 
"BRecode to Numeric 


Width for variable width string 


-—SPSS 变量 名 

—SPSS 变量 类 型 

号 把 字符 变量 转化 为 数值 变量 ,其 字符 值 转化 
为 数值 变量 的 编码 

吐字 符 变量 的 字符 最 大 数 
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[SPSS Ss 














图 1-52 ”数据 库 向 导 定 义 SPSS 变量 对 话 框 
a 操作 提示 (运行 SQL 语句 ) 
DER (LA 1-53) 


mx] — [salen 








" 
Results 
selection has resulted in the following SQL 






f patrie the data I bave sel 
4 Peste it into the syntax editor for urthe 








cicer JES] 


复制 到 程序 编辑 窗口 | 保存 查 淘 语句 | 


图 1-53 数据库 向 导 运行 SQL 对 话 框 





> 操作 选项 说 明 
“ORetrieve the data I have selected = SQL 语句 执行 数据 抽取 
Paste it into the syntax editor for further use 号 复制 到 程序 编辑 窗口 
“Save query to file >H SQL 语句 保存 在 文件 中 
Browse sir AXHA 


1.5.5 ”保存 SPSS 数据 文件 


数据 窗口 内 的 数据 必须 保存 才能 被 以 后 使 用 ， 否 则 ， 退 出 数据 窗口 后 所 有 的 修改 都 会 
ZA. 
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如 果 不 仅 想 保存 数据 窗口 内 的 数据 和 数据 修改 ， 而 且 要 更 换 数 据 文件 名 和 类 型 ， 甚 至 
挑选 部 分 变量 保存 ， 则 选择 文件 菜单 中 的 “Save as”。 保 存 操作 完成 后 ， 数 据 编辑 窗口 自 
动 打开 保存 文件 。 









* 操作 提示 
介 确 认 数据 编辑 窗口 为 当前 活动 窗口 is do ages 5 x : +: jue á REN 
File | 
“Save as á 
”文件 名 
MER OLIBLSA) 
ETT 
x MEE 
giat | | 数据 文件 类 型 | | 保存 按钮 
图 1-54 保存 数据 文件 对 话 框 
> 操作 选项 说 明 
Variable 全 选择 数据 文件 中 需要 保留 的 变量 niis, 
0 DRAŽA 一 选择 SPSS 创建 不 同 的 数据 文件 类 型 ， 205 siss a x+ 


可 以 保存 数据 表 中 的 部 分 变量 ， 单 击 Variable 按钮 后 打开 变量 选择 对 话 框 ， 如 图 1-55 
所 示 。 











& | | 变量 名 | 变量 标签 | 。 | 变量 序号 | 


图 1-55 保存 数据 文件 过 程 中 的 选择 变量 对 话 框 
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> 操作 选项 说 明 
“Keep 二 选择 园 或 者 不 选择 口 
“OKeep All 一 选择 全 部 变量 
-Drop All 一 删除 全 部 变量 
“Continue 号 完成 选择 ， 返 回 保存 对 话 框 


1.6 ”数据 的 编辑 与 整理 


在 数据 分 析 前 ， 一 般 需 要 进行 一 些 必要 的 编辑 和 整理 。 与 数据 表格 相关 的 数据 整理 ， 
通过 Data 菜单 完成 ， 这 些 整理 工作 主要 是 : 

° 对 数据 的 增添 和 删 减 ， 修 改变 量 属性 ; 

e 对 数据 表 的 重 构 操作 ， 如 排序 、 转 置 、 重 构 、 正 交 设 计 、 合 并 和 拆 分 数据 表 等 ; 

。 定义 变量 在 分 析 中 的 角色 。 


161 发现 重复 数据 


如 果 某 观察 个 体 有 多 个 (重复 )， 则 大 多 数 情 况 下 是 由 于 某 种 原因 导致 的 错误 。 通 过 
该 功能 ， 可 以 迅速 定位 这 些 重复 观察 个 体 。 该 功能 也 可 用 在 数据 双 录 后 的 数据 检查 ， 但 需 
注意 ， 数 据 双 录 检查 时 有 重复 个 体 是 正确 的 结果 ， 而 没有 重复 个 体 的 数据 是 错误 的 。 
> 操作 提示 

听 确 认 数 据 编辑 窗口 为 当前 活动 窗口 

Data 

Identify duplicate cases ( 见 图 1-56 ) 


组 内 排序 方法 | | 匹配 变量 | 








变量 清单 | | eres 


重复 例 变 | | | 
量 值 含义 

重复 例 组 
内 序号 


首 行 重复 例 
优先 显示 


统计 重复 数 | 


图 1-56 ”查询 重复 数据 对 话 框 
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> 操作 选项 说 明 
Define matching cases by 一重 复 个 体 定义 变量 (一 般 为 ID 号 )。 该 
清单 内 的 变量 取 值 相同 则 为 重复 例 
“Sort within matching groups by 十 按 该 变量 值 进行 重复 个 体 的 组 内 排序 
Variables to Create: 重复 数据 标志 变量 
Indicator of primary cases ( 1= =) 3 Sk E A 445 ES BUS 1, 
unique or primary , 0=duplicate ) 表示 为 主要 数据 个 体 或 者 没有 重复 ; 0 
表示 重复 数据 
“Name : 一 重复 数据 标志 变量 名 
Last case in each group is primary = F| — £ Z 3£F3462865 X5 3 XE 
-First case in each group is primary 一 同一 重复 数据 组 的 首 例 是 主要 数据 
“Filter by indicator values 一 按 重复 数据 标志 变量 设置 过 滤 规 则 
Sequential count of matching case in 一 重复 数据 组 内 编号 。0 表示 没有 重复 数 
each group ( 0=nonmatching case ) 据 例 
Move matching cases to the top of 一 重复 数据 移动 到 文件 的 首部 。 这 样 重复 
the file 数据 在 数据 窗口 的 顶部 被 首先 显示 出 来 


“Display frequencies for created variables — T 重复 数据 按 重复 标志 变量 进行 统计 
查询 重复 数据 产生 的 指示 变量 如 图 1-57 Pros 


| 重复 标志 变量 | | 重复 组 内 序号 | 











Eile Edit View Data Iransfora Analyre Graphs Utilities Window Help 


slala | || | >| a EE RES @| 


3 q 
1100 Duplicat 

Í 800 Primary 
800 Duplicat 

| 800 Primary 
900 Duplicat 
1000 Primary 
800 Duplicat 
700 Pnmary 
900 Duplicat 
750 Primary 
1100 Duplicat 


DX 
x 
x 
5 
5 
= 
x 
= 
x 
x 


F S 


SPSS Processor is ready 


图 1-57 查询 重复 数据 产生 的 指示 变量 
在 结果 浏览 窗口 ， 对 重复 标志 变量 的 频数 统计 显示 了 数据 表 内 重复 例 的 基本 情况 ， 如 
图 1-58 所 示 。 


Bie pit Yiw hata Draafen Teaert Toreat 


* Tamat dndyre Graphs Jili 
MIRA ei NI - | miel ei a :| 











| 重复 标志 变量 | | 重复 组 内 序号 ] 
图 1-58 ”查询 重复 数据 的 统计 表 





1.6.2 ”选择 数据 


有 时 需要 对 特定 个 体 (观察 对 象 ) 进行 分 析 , 通过 给 数据 表 设置 选择 条 件 或 过 滤 条 件 ， 
可 以 满足 这 一 要 求 。 只 有 被 选择 的 数据 参加 数据 分 析 计算 ， 没 有 被 选择 的 数据 不 参加 数据 
分 析 计算 。SPSS 设计 了 3 种 选择 数据 的 方法 ， 即 按 条 件 选 择 、 按 数据 范围 选择 和 从 数据 
表 中 抽样 。 


* 操作 提示 


Wo te 口 为 KESAR, n" 


Data 
WE ( 见 图 1-59) 

















图 1-59 选择 数据 对 话 杠 
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> 操作 选项 说 明 
Select: 选择 数据 规则 
“AI cases 一 全 部 数据 ; 取消 以 前 的 规则 
-If condition is satisfied 号 按 条 件 选 择 
"elf... 一 条 件 定义 
Random Sample of cases 一 抽取 部 分 样本 
Sample... 号 样本 抽取 方法 
Based on time or case range ”一 按 数据 范围 或 者 时 间 选 择 
“Range... “号 数据 范围 
“Use filter variable ”= 使 用 过 湾 变 重 ， 定义 过 滤 变 量 名 。 过 滤 变 量 的 取 值 


为 1 或 者 0。 取 值 为 工 表示 选择 ，0 表示 被 过 滤 
Unselected Cases Are: 没有 选择 的 数据 处 理 方法 


Filtered = 过 滤 。 数据 保留 在 数据 表 中 , 但 不 参加 以 后 的 分 析 
计算 和 制图 、 制 表 

Deleted 全 删除 。 数 据 从 数据 表 中 删除 

1. 按 条 件 选择 


如 果 选 择 按 条 件 选择 ， 则 单 击 IF 按钮， 打开 选择 条 件 对 话 框 ， 如 图 1-60 所 示 。 








E 1-60 ” 按 输 入 的 条 件 选 择 数据 对 话 杠 


a 操作 提示 
“If condition is satisfied 
DIF 

> 操作 选项 说 明 
BREL (清单 ) 号 选择 变量 。 双 击 菜 变量 后 ， 在 条 件 公 式 输入 框 显示 该 变量 
他 函数 名 (清单 ) 号 选择 函数 。 双 击 某 函 数 后 ， 在 条 件 公式 输入 框 显示 该 函数 
人 人 条件 公 式 输入 框 号 直接 输入 条 件 公式 。 可 以 编辑 修改 条 件 公式 
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人 数字 符号 按钮 一 单 击 后 在 条 件 公式 输入 框 输入 相应 的 数字 或 符 瑟 


s ES 一 输入 到 条 件 公 式 输入 框 
Continue SME, AH 
Cancel 一 取消 ， 返 回 继续 

2. 随机 抽样 


如 果 按 随机 抽样 选择 观察 个 体 , 则 单 击 Sample 按钮 , 打开 选择 抽样 对 话 框 , 如 图 1-61 
所 示 。 








a 操作 提示 » 
“Random sample of cases 
“Sample 
准确 抽取 | 抽样 例 数 || 百分比 | | Bem | 
图 1-61 按 随机 抽样 选择 数据 对 话 框 
> 操作 选项 说 明 
“Approximately (N) 96 of all cases 号 大 致 抽取 例 数 的 百分比 
“Exactly (M) cases from the first (N) cases 呈 准 确 地 从 入 例 中 抽取 M 例 


3， 按 数据 范围 选择 


如 果 按 在 数据 表 中 的 位 置 范 围 选择 数据 ， 则 单 击 Range 按钮 ， 打 开 选 择 范围 对 话 框 ， 
如 图 1-62 所 示 。 





图 1-62 按 数 据 范围 选择 数据 对 话 框 
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* 操作 提示 
“Based on time of case range 
Range 
> 操作 选项 说 明 
"First case 一 首 例 序 号 
“Last case c9 EN 
4. 设置 过 滤器 
对 数据 表 可 以 通过 选择 过 滤 变 量 来 选择 数据 。 过 滤 变 量 是 数值 型 标志 变量 ， 其 值 为 零 
或 者 缺失 数据 的 数据 例 ， 将 被 过 滤 。 
* 操作 提示 
Use filter variable 
中选 择 过 滤 变 量 名 i 
操作 完成 后 ， 如 果 仅 是 过 滤 掉 不 满足 条 件 的 数据 而 不 是 删除 数据 ， 则 在 数据 编辑 窗口 
的 左 侧 序号 内 加 上 前 斜 线 ， 即 表示 该 例 被 过 滤 ， 如 图 1-63 所 示 。 如 果 选 择 删 除数 据 ， 同 时 
数据 并 没有 同名 保存 ， 那 么 在 原来 的 数据 文件 中 被 删除 的 数据 还 存在 。 


1.63 ”定义 权重 


对 于 定性 分 类 数据 ， 或 者 定量 区 间 数 据 的 频数 分 布 表 ， 每 一 个 分 类 或 每 一 个 区 间 组 段 
的 例 数 各 不 相同 ， 为 了 在 统计 分 析 时 让 计算 机 知道 每 一 个 分 类 或 每 一 个 区 间 组 段 的 频数 ， 
需要 定义 权重 变量 。 权 重 变量 通常 表示 每 一 个 分 类 或 每 一 个 区 间 组 段 的 频数 ， 它 是 数值 变 
量 ， 且 必须 取 正 值 才 有 意义 。 


没有 被 选择 的 数据 例 ， 过 滤 数 据 例 | 


chid? av SPSS Data Editor 
Hile Edit Yies Date Transforn Amalyre Graphs Utilities Kinder Help 


Esel Qi 





选择 数据 正常 数据 例 


图 1-63 ”使 用 数据 选择 条 件 后 数据 编辑 窗口 的 数据 视图 
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DIN 与 统计 分 析 — 


a 操作 提示 
怕 确 认 数据 编辑 窗口 为 当前 活动 窗口 
Data 
Weight Cases ( 见 图 1-64 ) 


i X... 7 


| $ icm] [56] 

| 9 HEko [TZ] 
命 肺活量 tmi FHL Sl 
È Indicator of each le | 





| 当前 权重 | | 权重 变量 | 
图 1-64 定义 数据 权重 对 话 框 


> 操作 选项 说 明 
“Do not weight cases 一 不 使 用 权重 ， 取 消 权重 
“Weight cases by 号 使 用 权重 
“@Frequency Variable 一 权重 变量 
164 数据 排序 
SPSS 可 以 对 数据 基于 一 个 或 者 多 个 变量 进行 排序 。 
* 操作 提示 
介 确 认 数 据 编 辑 窗口 为 当前 活动 窗口 
Data 


Sort Cases ( 见 图 1-65 ) 





今年 级 [NG] ^ 
区 姓名 po] | 
RY 


(DER pe] 


| d HE ARA [CSRQ] ` 
命 身高 





| 按 降序 排序 | 
图 1-65 “数据 排序 对 话 杠 
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> 操作 选项 说 明 
“Sort by 号 排序 变量 列表 
Ascending 一 按 升序 排序 
"BDescending 一 按 降序 排序 
1.6.5 ”数据 表 转 置 


对 数据 表 的 行列 重新 进行 安排 ， 使 行 变 为 列 ， 而 列 变 为 行 ， 有 点 类 似 矩 阵 转 置 ， 称 为 
数据 表 转 置 。SPSS 在 新 的 数据 窗口 内 打开 转 置 后 的 数据 ， 新 的 数据 表 自 动 创 建新 的 变量 
名 。 

* 操作 提示 

人 确认 数据 编辑 窗口 为 当前 活动 窗口 

Data 

-Transpose ( 见 图 1-66 ) 


transpose 
DESB A 
® iti AR [CSRO] 
命 身高 fcmj [56] 


® 3 kg) [TZ] 
D Msi dik (mi) [FHL] 
@ Indicato 











图 1-66 数据 表 转 置 对 话 框 


> 操作 选项 说 明 
Variable 宇 在 变量 清单 中 选取 需要 转 置 的 变量 ,只 有 被 选取 变量 才 会 
在 新 数据 文件 内 被 保留 ( 见 图 1-67 和 图 1-68 ) 
Name Variable 号 在 变量 清单 中 选取 用 于 命名 新 数据 文件 变量 的 变量 


SPSS 13.0 for Windows 


3 Some variables are not selected for transposition. Untransposed variables will be lost. 





图 1-67 数据 表 转 置 操作 警告 对 话 框 
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Tile Edit View Data Transform Analyze Graphs Wtilities Window Help 


aga m l-l xim Aj Ed Essi [S @| 
1: CASE LBL 


» NData view Á Variable View f 





图 1-68 ”数据 表 转 置 操作 后 的 数据 编辑 窗口 


1.6.6 ”数据 表 合 并 


分 析 时 有 时 需要 将 两 个 数据 文件 的 数据 合并 。 一 般 来 说 ， 合 并 的 方式 有 两 种 : 一 种 是 
两 个 数据 文件 的 变量 相同 ， 合 并 的 目的 是 增加 分 析 例 数 ， 另 一 种 是 两 个 数据 文件 的 变量 不 
同 ， 但 是 却 有 相同 例 数 ， 合 并 的 目的 是 增加 变量 。 合 并 操作 同时 操作 两 个 数据 文件 ， 一 个 
在 打开 的 数据 表 内 ， 即 活动 文件 ， 另 一 个 用 打开 文件 菜单 选择 ， 即 外 部 数据 文件 。 进 行 合 
并 操作 时 ， 变 量 名 后 用 “*” 表 示 当 前 活动 数据 的 变量 ， 用 “+” 表 示 外 部 文件 的 变量 。 

1， 增 加 数据 例 数 的 合并 


d 操作 提示 
听 确 认 数 据 编 辑 窗口 为 当前 活动 窗口 
Data 
Merge Files 


“S Add Cases ( WA 1-69 ) 
ik AE Ap 5] Jc 65 3 R 3k 3 (LA 1-70) 


合并 后 的 数据 表 中 变量 
Define Yariable Properties 
Copy Data Properties 
Define Dates 


Insert Variable 


Insert Cases 


Identify Duplicate Cases 
Ürthogonal Design 


() = Working Data File 
f+] = rogram Fdes^S PSSNch1d2. sav 





MERER 数据 来 源 变量 名 


图 1-69 ”数据 编辑 窗口 合并 数据 及 其 子 菜单 图 1-70 ”增加 例 数 合并 数据 表 变量 选择 对 话 框 
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> 操作 选项 说 明 
.他 变量 名 呈 单 击 选择 ， 同 时 选择 两 个 变量 时 ， 按 住 Ctrl 键 再 单 击 和 鼠标 
Pair 一 确认 未 配对 列表 中 的 两 个 已 选择 变量 为 一 对 , 即 在 新 数据 表 中 
由 这 两 个 变量 共同 形成 一 个 新 变量 
“Rename 号 重新 命名 变量 名 ， 选 择 到 新 数据 文件 后 的 变量 名 ( 见 图 1-71) 


Indicate case 号 创建 标志 变量 来 指示 数据 来 源 


source as variable 





图 1-71 修改 变量 名 对 话 框 


2. 增加 变量 数 的 合并 


a 操作 提示 
介 确 认 数据 编辑 窗口 为 当前 活动 窗口 
Data 
Merge Files 
“Add Variable 
Oi 4F3⁄ 413865 k 8 3k cah ( 见 图 1-72 ) 
> 操作 选项 说 明 
"变量 名 号 单 击 选择 , 同时 选择 两 个 变量 时 , 按 住 
Ctrl && 33-3 UE 
Pair 定 确 认 未 配对 列表 中 的 两 个 已 选择 变量 
为 一 对 , 即 在 新 数据 表 中 由 这 两 个 变量 
共同 形成 一 个 新 变量 
“Rename 一 重新 命名 变量 名 
Match cases on key variables in sorted files 一 按 关键 变量 排序 的 数据 文件 合并 
“Both file provide cases 一 两 个 数据 文件 都 已 排序 , 同时 提供 数据 
External file is keyed table = EXER X: pk EEA 
Working Data File is keyed table 呈 活 动 文件 已 按 关键 变量 排序 
“OIndicate case source as variable 全 创建 标志 变量 来 指示 数据 来 源 


| 45 








| 合并 后 的 数据 表 中 变量 














图 1-72 ”增加 变量 数 的 合并 对 话 框 


1.6.7 ”数据 表 拆 分 (指定 分 组 分 析 变 量 ) 


对 数据 表 指 定 分 组 变量 ， 在 数据 分 析 时 使 分 析 过 程 按照 分 组 变量 生成 虚数 据 表 进行 分 
组 分 析 ， 得 到 各 个 组 的 结果 ， 好 像 数据 表 被 分 成 了 多 个 不 同 组 构成 的 小 的 数据 文件 一 样 。 
选择 操作 后 数据 表 并 没有 明显 的 改变 。 

a 操作 提示 

作 确 认 数 据 编辑 窗口 为 当前 活动 窗口 

Data 

Split File ( 见 图 1-73 ) 





| xm | mie 


图 1-73 数据 表 拆 分 对 话 框 


> 操作 选项 说 明 
Analyze all cases, do not create groups 呈 分 析 全 部 数据 ， 取 消 拆 分 数据 
“Compare groups 号 分 组 分 析 ， 按 组 间 比 较 的 形式 输出 结果 
Organize output by groups 一 分 组 分 析 ， 分 别 显示 各 组 所 得 的 结果 


46 | 


_ 概述 EN 


分 组 效果 【比较 分 组 ) 如 图 1-74 所 示 。 
* Descriptives 


Descriptive Statistics 


[性别 | N [Minimum | Maximum | Mean | Sto. Deviation | 


cm) 77 5.6832 
| wawa a| 7| lp hg | 

cm 29 126.0 117.383 6.0276 
ul | a) | | 


1-74 ” 拆 分 数据 表 操 作 后 的 分 析 效 果 《〈 分 组 比较 分 析 ) 


1.6.8 数据 汇总 
按照 分 组 变量 进行 分 组 汇总 统计 ， 并 在 数据 文件 中 保存 结果 。 汇 总 时 可 以 按 需 选择 汇 
总 统计 量 。 






a 操作 提示 
"人 确认 数据 编辑 窗口 为 当前 活动 窗口 
Data 


Aggregate ( 见 图 1-75 ) 
| 分 组 变量 | | 汇总 统计 量 | 





| FU [NG] 








| 9 po 
本 姓名 po4l 
命 性 别 [8] 
5 | * SERES 
rider | ORRAT 
_ 据 文件 _ 
经 按 分 组 
_ 变 量 排序 _ 
| 汇总 前 先 排序 | | 创建 汇总 文件 || 汇总 统计 县 | | 汇总 统计 量 命名 | 
图 1-75 汇总 数据 表 对 话 框 
> 操作 选项 说 明 
他 变量 名 呈 双 击 选择 变量 
“Break Variable 号 分 组 变量 
Summaries of Variables =L é * T 


| 47 


与 统计 分 





"Function... 

Name & Label 

“Number of cases 

Add aggregated variables to working data file 

Create new data file containing aggregated 
variables only 

File 

File is already sorted on break variables 

Sort file before aggregating 


Sum 
Standard deviation “` 
Percentages 


一 汇总 统计 量 ( 见 图 1:76) 

一 给 汇总 变量 命名 ( 见 图 1-77 ) 
c iE 5 3k 

二 直接 增加 汇总 结果 到 活动 数据 表 
导 创 建新 的 数据 文件 保存 汇总 结果 


一 汇总 数据 文件 名 
全 数据 已 经 按 分 组 变量 排序 
一 汇总 前 先 对 数据 按 分 组 变量 排序 


FAbove 


C Below 
C Inside 





图 1-76 汇总 数据 表 的 汇总 统计 量 


> 操作 选项 说 明 


Mean 

Median 

Sum 

“Standard deviation 
First 

Last 

Minimum 

“Maximum 

“Above ( Percentages F ) 
Below ( Percentages F ) 
Inside ( Percentages T ) 
“Outside ( Percentages F ) 
Above ( Fractions T ) 
“Below ( Fractions F ) 
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号 算术 平均 数 
一 中 位 数 
ee 

宇 标准 差 

呈 第 一 例 值 
全 最 后 一 例 值 
一 最 小 值 
一 最 大 值 

c ES 8 
tux 68 2 t 
cum 2 yt 
= US 2 m 
全 上 侧 百 分 数 
呈 下 侧 百 分 数 


_ 概述 EN 


Inside ( Fractions F ) eps zd 
Outside ( Fractions F ) e 5 68 2-3 
Weighted = #] 3 
“Weighted missing SHEHA b A 46) 3k 
"bUnweighted 一 实际 例 数 
-Unweighted missing 一 实际 例 数 和 缺失 例 数 








| 变量 标签 | | 变量 名 | 


图 1-77 修改 汇总 统计 变量 


> 操作 选项 说 明 
“Name 一 变量 名 
“Label 全 变量 标签 


汇总 数据 表 操 作 后 的 数据 表 如 图 1-78 所 示 。 


chid: d PSS Data Editor 
ile Edit View Data Ireasfora Analyre Graphs 内 iiities Window Help 


de S EID ACE Del 
1: XX e 





图 1-78 汇总 数据 表 操 作 后 的 数据 表 


16.9 查找 数据 


在 进行 数据 编辑 时 常常 需要 搜索 特定 数据 例 或 者 数据 值 ， 当 数据 表 变 量 或 者 数据 例 数 
较 多 时 ， 用 肉眼 扫描 查找 是 个 麻烦 的 工作 。 利 用 SPSS 提供 的 查找 工具 可 以 减轻 查找 负担 ， 
提高 查找 效率 。 


1， 直 接 切 换 到 某 例 
查看 已 知 序号 的 观察 值 〈( 按 SPSS 数据 窗口 的 自动 序号 )， 可 以 使 用 按 例 切 换 的 功能 。 
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输入 后 数据 编辑 窗口 滚动 到 该 例 ， 该 观察 例 成 为 数据 编辑 窗口 的 第 一 例 。 如 果 输 入 序号 超 
过 实际 序号 ， 则 移动 到 最 后 一 例 。 输 入 了 不 正确 的 序号 ， 对 数据 窗口 没有 影响 ， 数 据 编 辑 
窗口 不 发 生 移动 。 
a 操作 提示 

中 确 认 数据 编辑 窗口 为 当前 活动 窗口 

-Data 

“Go To Case ( 见 图 1-79 ) 





图 1-79 切换 到 某 数据 例 对 话 框 


> 操作 选项 说 明 

Case Number “一 机 器 序号 ， 数 据 编辑 窗口 左 侧 的 编号 。 正 整数 为 有 效 的 输入 数据 

BOK 一 切换 到 该 例 

2. 查找 变量 的 数据 值 

使 用 Find 菜单 进行 数据 查找 能 准确 地 找到 该 数据 而 又 不 会 发 生 遗 漏 。 查 找到 满足 条 件 
的 数据 后 光标 移动 到 该 例 ， 在 当前 数据 编辑 窗口 中 显示 该 例 。 没 有 查找 到 则 显示 失败 提示 
对 话 框 ， 数 据 编辑 窗口 不 发 生变 化 。 
a 操作 提示 

听 确 认 数 据 编 辑 窗口 为 当前 活动 窗口 

人 选择 要 查找 的 变量 

Edit 

Find ( 见 图 1-80 ) 


| 匹配 例 | 下 一 个 | | 数据 值 | | 已 有 数据 值 列表 | 








图 1-80 ”数据 表 内 查找 数据 值 对 话 杠 
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> 操作 选项 说 明 
“Find =E 8 CER 
他 Stop 一 中 止 查找 
Find Next 一 查 找 下 一 合 ， 单 击 后 开始 查找 
Match case c Vo Bed X El 


再 次 查找 没有 找到 ， 则 显示 失败 对 话 框 ， 如 图 1-81 所 示 。 


SPSS 13.0 for Windows R 


a N BEDE Not found 
WE l 





1-81. 没有 查找 到 数据 值 提示 对 话 框 


1.7 数据 转换 


在 数据 分 析 过 程 中 ， 原 始 数据 有 时 很 难 满足 统计 学 的 要 求 ， 必 须 对 数据 按 变量 进行 适 
当 的 变化 ， 改 变 变量 的 取 值 、 编 码 等 。 与 变量 相关 的 数据 整理 通过 Transform 菜单 完成 。 
。 变量 值 的 重新 计算 : 如 公式 计算 、 编 码 、 缺 失 数据 处 理 。 
e 时 间 变 量 的 操作 : 时 间 变 量 是 SPSS 时 序 分 析 中 的 一 类 特殊 变量 ， 与 时 间 变 量 相关 
的 操作 通过 特定 的 菜单 完成 。 
e 随机 数据 的 模拟 : 通过 SPSS 丰富 的 随机 函数 库 ， 可 以 进行 多 类 型 的 数据 模拟 。 


1.7.1 公式 计算 


公式 计算 对 话 框 是 完成 计算 的 主要 工具 , 在 该 对 话 框 内 输入 计算 公式 就 可 以 计算 出 相 
应 的 结果 ， 并 把 该 计算 结果 保存 在 活动 数据 表 的 变量 中 。 用 来 保存 计算 结果 的 变量 称 为 结 
果 变 量 。SPSS 的 公式 计算 是 基于 变量 的 公式 计算 ， 保 存 变量 可 以 是 新 建 变量 也 可 以 是 数 
据 表 已 有 变量 ， 计 算 的 基本 单位 是 数据 例 ， 即 计算 公式 以 行为 单位 构建 。 

* 操作 提示 f 

“344, 34k 3 35 t Q O 2) 3 90 26 21 E 

Transform 

-Compute ( WA 1-82 ) 


在 如 图 1-83 所 示 的 公式 计算 对 话 框 中 输入 的 计算 公式 是 BMI= TZ/SG2 *1002 ， 计 算 
结果 保存 在 变量 BMI 中 ， 参 与 计算 的 变量 有 TZ, SG。 
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Comp 公式 计算 

Recode P| 编码 

Visual Bander. | 可视化 分 县 
Count... | 计数 

Rank Cases... | 编 秩 

Automatic Recode.. 自动 编码 
Date/Time... FEBR fu] $ 89 f1 
Create Time Series | &J ae fury v 
Replace Missing Values.. Hidi fr 
Random Number Generators.. b EX 











> 操作 选项 说 明 


Target Variable 
-Type & Label 
“Numeric Expression 
“Function group 














公式 计算 对 话 框 


图 1-83 


“Functions and Special Variables 


OIF 
人 数字 字符 按钮 


> 操作 选项 说 明 
“Label 


Use expression as label 


Numeric 
String 
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EREE 

全 打开 结果 变量 类 型 和 标签 对 话 框 ( 见 图 1-84 ) 
一 输入 数值 表达 式 ” 

一 选择 内 建 函 数 分 类 

一 选择 内 建 函 数 

一 打开 计算 条 件 对 话 框 ( 见 图 1-85 ) 

号 选择 数字 字符 到 条 件 公式 输入 框 


一 自 定义 标签 

一 计算 公式 作为 标签 
一 数值 型 

一 字符 型 


ss ENG 


Width 一 字符 宽度 


| 按 条 件 计算 | 。 | 计算 条 件 | 





[ovem —— 


| d» set ING] — wasa. a 0 
93 px] 
LIES [KM] Ge 
i | tes P] 
| 计算 公式 作为 标签 | 变量 标签 vd aad 可 j izlel furem Z 








e| 41515] [COP EN CDF 
-| sedo JF t No 
| iid [PH] J HE ET 3j | usa 


1 xi NEL Ru CEN 


'oniversion 
| Current Date/Time x 


Jj 4j 2912 d 
" 'unctions and Special Variable: 
iui pass [a] > == 





| 新 变量 数值 类 型 


图 1-84 ”修改 变量 属性 对 话 框 图 1-85 ”选择 计算 输入 条 件 公式 对 话 杠 
通过 指定 计算 条 件 ， 可 以 对 特定 的 数据 例 进行 公式 计算 。 满 足 条 件 的 数据 例 的 结果 变 


量 按 公式 计算 ， 而 不 满足 条 件 的 数据 例 的 结果 变量 值 不 变 。 如 果 结 果 变 量 是 新 建 变量 ， 则 
不 参加 计算 例 的 值 为 系统 缺失 值 。 


> 操作 选项 说 明 
Include all cases 之 全 部 数据 例 都 进行 计算 ， 取 消 条 件 计 算 
Include if case satisfies condition 呈 满 足 条 件 的 数据 例 参与 计算 
. E 


c odds 还 可 以 使 用 SPSS 内 建 的 大 约 70 个 函数 ,以 适应 复杂 的 计算 公 


。 具 体 的 函数 和 参数 说 明 参 见 附录 A. SPSS 函数 的 常用 类 型 如 下 : 


。 算术 函数 ; 

e 统计 函数 ; 

° 字符 函数 ; 

。 随机 数 函 数 ; 

。 统计 分 布 函 数 ; 

。 缺失 值 函 数 ; 

° 分 值 函 数 。 

2. 转换 表达 式 

在 计算 公式 对 话 框 中 输入 的 计算 公式 就 是 SPSS 的 转换 表达 式 ， 它 主要 用 于 进行 公式 


计算 、 指 定 条 件 等 情况 。 按 表达 式 计算 结果 可 分 为 数值 、 字 符 和 逻辑 三 类 表达 式 。 无 论 是 
哪 类 表达 式 ， 它 的 计算 结果 都 是 一 个 值 ， 即 为 一 个 数值 、 字 符 串 或 者 逻辑 真 假 值 。 在 SPSS 
中 逻辑 真 用 非 零 数值 表示 ， 系 统 内 用 数值 1 表示 逻辑 真 ， 反 之 ， 风 辑 假 则 用 数值 0 表示 。 
一 般 情 况 下 ， 不 同类 型 的 变量 、 常 量 、 函 数 不 能 用 在 同一 表达 式 中 。 
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公式 中 如 果 表 达 式 参与 计算 的 值 有 系统 缺失 值 ， 则 计算 结果 在 大 多 数 情 况 下 是 系统 缺 
失 值 。 在 汇总 统计 函数 中 的 变量 值 有 缺失 数据 ， 则 该 值 被 包 略 ， 不 参加 该 函数 的 计算 。 


3. 运算 符 
SPSS 包含 三 类 运算 符 ， 分 别 为 算术 运算 符 、 关 系 运算 符 和 逻辑 运算 符 。 除 此 之 外 ， 
还 能 使 用 圆 括号 0)。 
(OD 算术 运算 符 (参见 表 1-4) 
表 1-4 算术 运算 符 
功能 加 减 乘 除 乘 方 
运算 符 + - * / ** 


(2) 关系 运算 符 〈 人 参见 表 1-5) 


表 1-5 关系 运算 符 
功能 相等 不 相等 小 于 大 于 小 于 等 于 


运算 符 EQ, = NE, ~=, 525, <> LT; € GT, > LE, «- 


(30 逻辑 运算 符 (参见 表 1-6) 


表 1-6 逻辑 运算 符 
功能 或 者 并 且 非 〈 不 是 ) 
运算 符 OR, | AND, & NOT, ~, ^ 


1.7.2 ”数据 编码 


大 于 等 于 
GE，>= 


在 数据 输入 时 可 以 进行 数据 编码 ,在 分 析 过 程 中 也 常常 因为 某 个 分 析 目 的 而 重新 进行 


数据 编码 。 在 SPSS 中 可 以 使 用 Recode 子 菜单 进行 数据 编码 。 

1. 编码 到 同一 变量 

编码 结果 保存 在 原 变量 中 ， 编 码 后 原 变量 值 不 再 保留 。 
* 操作 提示 

他 确认 数据 编辑 窗口 为 当前 活动 窗口 

“Transform 

Recode 

Into Same Variables ( 见 图 1-86 ) 

Dt kE 


可 以 同时 选择 多 个 同类 型 的 变量 ,选择 的 第 一 个 变量 确定 了 以 后 能 选择 的 其 他 变量 类 
型 。 如 果 仅 对 部 分 数据 编码 ， 则 选择 条 件 对 话 框 来 定义 编码 的 条 件 ( 见 图 1-87)。 
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编码 值 对 话 框 | |[ 待 编码 变量 | 


[$8 NG —— 
| 9 pai 


|a 姓名 pM] 

| 命 性 别 [X8] 

D 出 生日 期 CSRO) 
命 身高 fcml [SG] 
合体 重 koj [TZ] 


| Risa PH mam] 


® BMI [BMI] : 
| 1.4 | foptional case selection condition) 





Random Number Generators 





| 编码 条 件 | 
图 1-86 ”编码 数据 转换 及 其 子 菜单 图 1-87 编码 到 原 变 量 对 话 框 
> 操作 选项 说 明 
他 变量 名 一 选择 变量 
Old and New Values “一 打开 编码 表 定 义 对 话 框 ， 定 义 编 码 表 。 每 一 变量 都 可 以 定 
义 一 个 唯一 的 编码 表 
“OIf 一 打开 条 件 对 话 框 ， 定 义 条 件 ， 全 部 编码 变量 公用 一 个 条 件 


原 有 变量 数据 值 可 以 是 连续 数据 值 或 者 编码 值 。 操 作 时 必须 同时 指定 原来 的 数据 值 和 
新 的 编码 值 ， 这 样 形成 一 个 编码 对 ， 即 编码 方案 。 编 码 方案 列 在 右 下 侧 的 编码 表 中 ， 可 以 
通过 选择 编码 表 对 编码 方案 进行 修改 〈 见 图 1-88). 


编码 下 限 | | 原 编码 值 | 编码 上限 || 添加 编码 | | 新 编码 什 





编码 下 限 | [编码 上 限 编辑 编码 表 | | RUR 


图 1-88 ”编码 数据 转换 过 程 中 编码 方案 输入 对 话 杠 


> 操作 选项 说 明 
Old Value: 原 有 编码 


他 Value 宇 原 有 数据 编码 值 
-System-missing 他 系统 缺失 值 

System- or user-missing 全 系统 和 用 户 缺 失 值 

Range MES EAE 25 

-Lowest through 全 连续 变量 编码 ， 指 定编 码 下 限 


与 统计 分 


Ò through highest 号 连续 变量 编码 ， 指 定编 码 上 限 
“DAIL other values 全 没有 在 编码 表 中 列 出 的 数据 
New Value: 新 编码 

-Value 呈 新 编码 

“OSystem-missing 一 新 编码 为 系统 缺失 值 

-Add | 一 增添 编码 方案 
Change 改变 已 有 编码 方案 
Remove 一 删除 编码 方案 
-Old 一 New ( 编码 方案 表 值 ) 字 选 择 编辑 已 有 编码 方案 


2. 编码 到 不 同 变 量 

创建 新 变量 保存 编码 结果 ， 编 码 后 原 变量 值 不 变 。 
* 操作 提示 

人 确认 数据 编辑 窗口 为 当前 活动 窗口 

-Transform 

-Recode 

Into Different Variables 

首先 选择 变量 ,命名 新 变量 和 变量 标签 ， 构 成 新 旧 变 量 对 ， 然 后 再 定义 编码 表 和 条 件 
( 见 图 1-89). 





| @ ti BIB CSRO) 


| 9» B dicm) [SG] 
体重 kglfT2 
D Reiki [FHL 
$» EMI [BMI] 











_ 编 码 条 件 || 编码 值 对 话 框 | 


图 1-89 ”编码 到 新 变量 对 话 框 


> 操作 选项 说 明 
只 变量 名 一 选择 变量 
“Name 全 新 变量 名 
Label = 3⁄ 3 AF25 
-Old and New Values FELAK, AAD23348 SLT ARS 
"oif 一 定义 编码 条 件 。 所 有 编码 变量 共用 一 个 条 件 
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a 操作 提示 


他 选择 新 旧 变 量 对 

Old and New Values 

64i: RRA DUE UAR 

AE.: ; 

眉 如 果 需 要 上 面 4 步 可 以 反复 进行 ， 直 到 符合 要 求 

BOK 

3. 自动 编码 

当 需 要 把 字符 变量 编码 后 转化 为 数值 型 变量 , 或 者 将 原 有 编码 方案 转化 为 连续 编码 方 
案 时 ， 可 以 采用 自动 编码 简化 编码 表 的 创建 工作 。 
a 操作 提示 


人 确认 数据 编辑 窗口 为 当前 活动 窗口 
“Transform 
Automatic Recode ( 见 图 1-90 ) 


(S sat ING] 
| 39 por 
[BES pM] 
| 命 出 生日 期 [CsRO) 


| 全 部 变量 编 | | | 合身 高 (emj 1S6] 
D Eka TZ] 
MARAN | | epson tu 
| & BMI [EMI] 








空白 字符 
缺失 值 N N. 
s A Use the same recoding scheme for all valables 
F Treat blank string values az utermicsing 
保存 模板 j| 使 用 模板 | | 从 最 小 值 开始 编码 | | 更 改 新 变量 名 
图 1-90 ”自动 编码 对 话 框 

> 操作 选项 说 明 

OREZ 一 选择 变量 

Variable 一 New Name 宇 新 旧 变 量 对 

“New Name 一 新 变量 名 

“Recode starting from lowest value 一 从 最 小 值 开 始 编码 

-人 Recode starting from highest value 号 从 最 大 值 开始 编码 

Use the same recoding scheme for all variables ”一 全 部 编码 变量 采用 同一 编码 方案 

-Treat blank string values as user-missing 一 字符 变量 的 空白 值 是 缺失 数据 
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DRN 与 统计 分 析 


“Apply template from 号 使 用 保存 的 编码 方案 
Save template as ** 一 保存 的 编码 方案 
-File 号 编码 方案 文件 名 
Add New Name 号 增加 新 名 字 

BOK S J Ah I 


173 ”替代 缺失 数据 


缺失 数据 是 数据 分 析 中 的 常见 问题 ， 如 果 存 在 大 量 缺 失 数据 就 会 严重 影响 数据 分 析 。 
在 充分 合理 利用 已 有 数据 信息 的 条 件 下 ，SPSS 提供 了 用 合理 数据 直接 简单 代替 缺失 数据 
的 方法 。 替 换 的 结果 保存 在 新 变量 中 。 
* 操作 提示 

人 确认 数据 编辑 窗口 为 当前 活动 窗口 

“Transform 

Replace Missing Values ( 见 图 1-91 ) 


| 例 出 生日 期 [CSRQ] 
| 合身 高 cmj [SG] 


| 合体 重 [kgj [TZ] 
D Mk f imi [FHL] 
|b EMI (8Mi] 





图 1-91 替换 缺失 值 对 话 框 (均值 法 ) 


> 操作 选项 说 明 
,变量 名 号 选择 变量 
New Variable 一 替换 方案 ， 选 择 后 可 以 更 名 和 更 换 方 案 
“Name 一 新 变量 名 
Method 一 选 择 蔡 换 方 案 
-人 Series mean 号 变量 均值 
Mean of nearby points c |& it s d 35) f 
Median of nearby points = |& £ ,5. 65 vp 45.3 
"Span of nearby points (Number) ce if dd ( 见 图 1-92) 
Span of nearby points (ALL) 全 全 部 数据 
Linear interpolation 号 线性 内 插 法 
“OLinear trend at point 号 线性 趋势 法 


_ 概述 ENS 


Name and Method 


po deed 


| Method: Mean of nearby points "| 
| Span of nearby points: 
| © Number. [2 CA 


8» SMEAN(TZ) [TZ. 1] 





图 1-92 替换 缺失 值 对 话 框 (临近 点 均值 法 ) 


1.7.4 数据 例 编 秩 

很 多 统计 分 析 都 是 基于 秩 次 的 , 对 变量 按 观察 值 大 小 排序 后 , 得 到 其 在 序列 中 的 秩 次 。 
秩 次 保存 在 新 的 变量 中 ， 原 数据 的 顺序 不 变 。 系 统 自动 生成 新 变量 和 新 变量 名 。 
a 操作 提示 

他 确认 数据 编辑 窗口 为 当前 活动 窗口 


“Transform 
Rank Cases ( WA 1-93 ) 


单 击 Rank Types... 按 钮 ， 弹 出 如 图 1-94 所 示 的 编 秩 方 法 对 话 框 。 


| 显示 摘要 | | 分 组 变量 | REEE 





Fractional rank as % 
[^ Sum of case weights 
[7 Naes [T 











| 最 大 值 编 秩 1 || 最 小 值 编 秩 1 | | 秩 次 类 型 || 相同 秩 次 
| 处 理 方法 





| 计算 正太 分 
图 1-03 ”数据 编 秩 对 话 框 图 1-94 ”数据 编 秩 过 程 中 编 秩 方法 对 话 框 
> 操作 选项 说 明 
Rank 一 简单 编 秩 
Savage score SHAT 
Fractional rank = 24k, DART 
Fractional rank as % 一 百分比 编 秩 


DRN 与 统计 分 析 — 





Sum of case weights cp 2 6) p fo 

"BNNtiles = 2 2 Ee 

“©Proportion estimates c8 edt 

“Normal scores 全 正 态 分 

“©Proportion Estimation Formula 一 百分比 估计 公式 

单 击 Ties... 按 钮 ， 弹 出 如 图 1-95 所 示 的 相同 值 编 秩 方法 对 话 框 。 
ipa | | 最 低 秩 次 ] [ 


€ sn Š 
(Ñ Sequential ranks to unique values 





[XT 
图 1-95 ”数据 编 秩 过 程 中 相同 值 编 秩 方法 对 话 框 


1.7.5 ”频数 分 组 
频数 分 组 参见 第 2 章 ， 频 数 表 编制 。 2 


1.8 帮助 的 获取 


SPSS 提供 功能 全 面 的 在 线 帮助 系统 。SPSS 提供 的 帮助 系统 包括 : 

。 按 目录 组 织 的 帮助 电子 书 (Topics, Command Syntax Reference); 

e 对 话 框 帮助 按钮 (Help); 

° SPSS 教程 ， 又 包含 了 案例 学 习 〈Case Studies), RIRA (Statistic Coach) 和 指南 
(Tutorial). 


1.8.4 按 专题 组 织 的 帮助 

按 专题 组 织 的 帮助 提供 全 部 SPSS 菜单 操作 和 相关 内 容 的 帮助 ， 它 按 专 题 组 织 ， 有 索 
引 ， 按 关键 词 搜索 ， 是 SPSS 主要 的 在 线 帮助 功能 。 
a 操作 提示 

Help 

Topics 


帮助 系统 窗口 分 为 两 个 子 窗口 ， 左 边 导航 窗口 显示 查找 信息 的 主题 目录 ， 右 侧 内 容 窗 
口 显示 具体 帮助 内 容 。 左 侧 导航 窗口 可 以 按 4 种 方式 搜索 浏览 相应 的 信息 ， 即 目录 浏览 方 
式 、 关 键 词 索引 搜索 浏览 方式 、 关 键 词 搜索 方式 和 用 户 自 定义 的 书签 。 可 以 单 击 相应 的 书 
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签 条 来 切换 不 同 的 浏览 方式 ; 系统 自动 进入 上 一 次 使 用 的 方式 。 首 次 使 用 时 自动 进入 目录 


浏览 方式 。 


概述 





按 目 录 方式 浏览 帮助 电子 书 ， 如 图 1-96 所 示 。 


a c 


LI jJ RR 


BO | miw | exo | #20 | 


= (U Base System 
* 
= (Q Getting Heip 
Using the Help Table of Content 
Using the Help Index , 


Getting Help on Dialog Box Cont 三 


Getting Help on Output Tems 
Using Case Studies 
Copyng Help Text from a Pop-Ut 

Data Fies 

Distributed Analysis Mode 

Data Edito 

Data Preparation. 

Data Transformations 

Fie Handing and Fie Transformator 

Working with Output 

Drakt Viewer 

Pivot Tables 

Working with Command Syntax 











SPSS for Windows provides a powerful 
statistical analysis and data management 
system in a graphical environment, using 
descriptive menus and simple dialog boxes 
to do most of the work for you. Most tasks 
can be accomplished simply by pointing and 
clicking the mouse. 


In addition to the simple point-and-click 
interface for statistical analysis, SPSS for 
Windows provides: 


Data Editor. A versatile spreadsheet-like 
system for defining, entering, editing, and 
displaying data. 


Viewer. The Viewer makes it easy to 
browse your results, selectively show and 
hide output, change the display order 
results, and move presentation-quality 
tables and charts between SPSS and other 
applications. 


Multidimensional pivot tables. Your 
results come alive with multidimensional 
pivot tables. Explore your tables by 
rearranging rows, columns, and layers. 
Uncover important findings that can get 
lost in standard reports. Compare groups 
easily by splitting your table so that only 
one qroup is displayed at a time. 





图 1-96 按 目录 方式 浏览 帮助 电子 书 
按 索 引 方 式 浏览 帮助 电子 书 ， 如 图 1-97 所 示 。 


e © 


后 退 j 停止 B 


siio | exo | wo | 





rf; 


qu s 





@) 





Using the Help Index 
b In any window, from the menus choose: 


Help 
Topics 
| P Click the Index tab. 


| > Enter a term to search for in the index. 


| ^ Double-click the topic that you want. 


The Help ndex uses incremental search to 
find the text that you enter and selects the 
closest match in the index 





图 1-97 按 索 引 方式 浏览 帮助 电子 书 
按 全 文 搜索 方式 浏览 帮助 电子 书 ， 如 图 1-98 所 示 。 
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là Mo 


Getting Help 


Help is provided in many 
|| different forms: 


Help menu. The Help menu in 
most SPSS windows provides 
access to the main Help system, 
plus tutorials and technical 
reference material. 


e Topics. Provides access to 
the Contents, Index, and 
Search tabs, which you can 
use to find specific Help 
topics. 


e Tutorial. Illustrated, step- 
by-step instructions on how 
to use many of the basic 
features in SPSS. You don't 
have to view the whole 
tutorial from start to finish. 
You can choose the topics 
you want to view, skip 
around and view topics in 


1-98 ” 按 全 文 搜索 方式 浏览 帮助 电子 书 


1.8.2 ”通过 对 话 框 内 的 Help 按钮 使 用 帮助 

几乎 所 有 的 SPSS 对 话 框 中 都 有 一 个 _es | 按钮 ， 单 击 选择 后 相当 于 按 目 录 方式 浏览 
选择 相应 内 容 的 目录 条 目 ， 直 接 在 浏览 窗口 显示 相应 的 帮助 信息 。 
* 操作 提示 

-Help 按钮 ( 见 图 1-99) 








命 性 别 KB] 

È tH ARA [CSRO] 

D $E (ko) [TZ] 

P 88) IFHL 


| 
[7 Save standardized values as variables 





图 1-99 ”任意 对 话 框 中 帮助 按钮 视图 (描述 统计 分 析 ) 


18.3 ”使 用 对 话 框 中 的 提示 帮助 


SPSS 对 话 框 中 的 所 有 项 目 都 可 以 使 用 提示 系统 (What's this?) 对 话 框 来 获得 相应 的 
帮助 信息 。 
d 操作 提示 


人 将 光标 移动 到 需要 帮助 信息 的 目录 上 
DAERA ( 见 图 1-100) 
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ss EN 





| 再 要 帮助 信息 的 项 目 | 提示 
mm p.s sciiptaves i 


M Deseviptivez: Options 








图 1-100 任意 对 话 框 中 鼠标 右键 帮助 提示 《〈 描 述 统计 分 析 ) 


1.8.4 在 结果 输出 窗口 使 用 提示 帮助 


SPSS 输出 窗口 (Viewer) 的 输出 项 目 和 结果 都 可 以 使 用 提示 系统 (What's this?) 菜单 
来 获得 相应 的 帮助 信息 ， 方 便 了 结果 的 阅读 和 理解 。 


* 操作 提示 
亿 将 光标 移动 到 需要 帮助 信息 的 结果 或 者 项 目 目录 上 


o3 d RU st 
人 选择 帮助 方式 ( 见 图 1-101) 


- [33 - rn — Insert Format tir Graphs Utilities Window Help 
simia ai -| E+ @| l :| 

i1 +|- ag salg 
= dad ouput Descriptives 


What's This? 

Cut 

cm) Copy 
Valid N (li — Copx objects 


Paste After 





Create/Edit Autoscript 
Export. 


Besults Coach 
Case Studies 


SPSS Pivot Table Object P 





1 items selected (D hidden/collapsed) 


图 1-101 结果 浏览 窗口 中 鼠标 右键 帮助 提示 菜单 


DRN 与 统计 分 析 —8 


> 操作 选项 说 明 
What’s this? STRAH, 类 似 对 话 框 提示 帮助 
JBResults Coach ”一 结果 解释 教练 。 打开 Statistics Coach, 运行 教练 的 结果 解释 部 分 


-Case Studies ”一 案例 学 习 。 打 开 Case Studies 


1.8.5 “使 用 统计 教练 

统计 教练 的 目的 是 指导 用 户 找到 并 使 用 正确 的 SPSS 过 程 来 进行 统计 分 析 ， 通 过 该 统 
计 教 练 学 习 选 择 的 统计 过 程 。 
当 操作 提示 


“Help 
“Statistics Coach ( 见 图 1-102) ` 


Govemmen | — $2,525 |$1.252641 Ë | ` 
Commercial $2,481 |$1,280,304 | 
Academic $2546 |51.211724 IB 2 
Total $2,517 $3,744,669 


pm mm === — 1 
Time on Hold | Frequency Percent 
< 1 Minute 279 18.6 18.6 
235 424 
205 625 
375 100.0 
100.0 


Ë 
E Eme | Minute m m m" m 
; 1-2Minues | 93| 89| 89| e! 
amines | 75| 64| 76| 92 
||» Minutes | 149| 130| 145| 138 


图 1-102 统计 教练 系统 初始 界面 


1.8.6 ”使 用 联机 帮助 和 网 络 讨论 组 
可 以 登录 SPSS 公司 的 网 站 www.spss.com， 享 受 联机 帮助 的 乐趣 ， 参 与 SPSS 用 户 间 
心得 交流 和 获得 SPSS 软件 的 最 新 发 展 信息 。 
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第 2 XO ”数据 类 型 与 统计 学 描述 





统计 学 分 析 主 要 有 两 个 方面 ， 一 方面 是 统计 学 描述 ， 另 一 方面 是 统计 学 推断 。 通 过 统 
计 学 描述 可 以 初步 掌握 数据 的 基本 统计 学 特征 ， 为 采用 其 他 的 统计 学 分 析 方 法 打下 基础 ， 
为 进一步 进行 统计 学 分 析 提 供 依据 。 统 计 学 描述 的 基本 方法 有 数据 频数 分 布 特征 描述 、 集 
中 趋势 值 和 离散 趋势 值 的 计算 等 。 不 同 的 数据 类 型 ， 采 用 的 统计 学 描述 方法 略 有 差异 。 

在 SPSS 中 ， 统 计 学 描述 主要 采用 Analyze 一 一 >Descriptive Statistics 菜单 完成 。 该 菜 
单 下 的 不 同 子 菜单 对 应 于 不 同 的 统计 学 描述 过 程 。 


2.1 数据 分 类 


SPSS 把 变量 分 为 3 类 ， 即 名 义 变量 (Nominal, $4), HEZE (Ordinal, #ÜW 9». 
REZE (Scale, 4?/ V) SPSS 称 变量 类 型 为 变量 测度 (Measure)， 该 属性 在 数据 编辑 
窗口 的 变量 编辑 窗口 (Variable Edit) 中 定义 〈 见 第 1 章 )。 该 分 类 方法 分 别 对 应 于 定性 资 
料 〈 计 数 资 料 、 无 序 分 类 资料 )、 等 级 资料 (有 序 分 类 资料 ) 和 定量 资料 〈 计 量 资料 )。 

尺度 变量 值 (定量 资 料 ); 是 对 观察 对 象 的 该 变量 ， 采 用 定量 测定 的 方法 获得 。 数 据 
值 可 表示 为 在 数 轴 一 定 区 间 内 的 连续 取 值 ， 所 以 也 称 之 为 区 间 变 量 。 例 如 ， 观 察 对 象 的 身 
高 、 体 重 等 。 

名 义 变量 值 〈 定 性 资料 ): 是 对 观察 对 象 的 某 属 性 或 者 特征 进行 分 类 ， 是 对 观察 对 象 
的 某 个 特征 现象 进行 描述 。 分 类 值 结果 本 身 并 无 数量 的 含义 ， 无 法 在 数 轴 上 表示 出 来 ， 即 
使 在 数 轴 上 表示 出 来 也 仅仅 是 名 称 标识 的 含义 ， 所 以 称 为 名 义 变量 。 例 如 ， 观 察 对 象 的 性 
别 、 血 型 等 。 

有 序 变量 值 〈 等 级 资料 ): 是 按 观 察 对 象 的 某 属 性 或 者 特征 进行 分 类 ， 但 这 些 分 类 之 
间 本 身 有 强 弱 、 轻 重 、 大 小 程度 的 区 分 ， 就 好 像 分 类 结果 之 间 具 有 数量 上 的 大 小 、 高 低 一 
FÉ. 虽然 如 此 ， 结 果 值 仍然 不 能 在 数 轴 上 明确 表示 出 来 ， 每 一 等 级 之 间 的 距离 往往 是 含糊 
不 清 的 。 例 如 ， 临 床 疗效 治愈、 好转、 无 效 、 死 亡 )、 入 院 病 情 〈 轻 、 中 、 重 )、 考 试 成 


DUN 与 统计 分 析 — 


绩 分 级 (A, B, C, D, E) 等 。 

对 尺度 数据 的 统计 学 描述 通常 采用 整理 频数 分 布 表 ， 计 算 集 中 趋势 值 和 高 散 趋势 值 。 
对 双 变 量 间 关系 分 析 还 能 计算 相关 系数 。 

对 非 尺 度数 据 的 统计 学 描述 通常 采用 频数 分 布 的 描述 、 率 或 构成 比 等 统计 指标 的 计算 
等 方法 。 


22 ”制作 频数 表 


制作 频数 表 是 描述 性 分 析 中 最 常 使 用 的 方法 。 通 过 制作 频数 表 ， 可 以 初步 突显 变量 的 
分 布 特征 。 频 数 表 分 析 采 用 Frequencies... 过 程 ， 该 过 程 不 仅 可 以 编制 频数 表 ， 而 且 也 能 计 
算 常见 的 统计 学 描述 指标 ， 绘 制 直方 图 或 者 直 条 图 。 

频数 表 是 按照 观察 值 在 数据 表 中 的 出 现 频 数 来 编制 的 ， 要 编制 出 符合 习惯 的 频数 表 ， 
必须 首先 对 原始 数据 进行 频数 分 段 。 频 数 分 段 常常 使 用 数据 整理 过 程 的 Recode 或 Visual 
Bander 来 完成 。 正 由 于 Frequencies... 过 程 可 以 显示 原始 数据 的 出 现 频 数 ， 所 以 它 也 常 被 用 
于 数据 的 清理 过 程 ， 用 来 检查 数据 取 值 的 正确 性 。 下 面 通过 一 个 实例 来 介绍 频数 表 的 制作 
方法 。 

实例 2-1 茶 医 生 调查 某 地 区 儿童 生长 发 育 的 情况 ， 共 调查 了 106 名 7 岁 儿 童 。 调 查 
表 如 图 2-1 所 示 。 


某 时 茶 地 区 学 龄 儿童 体检 过 


学 号 :30130 — iE. — RRS FR: O 7o S 年 级 2 AA: mW 4 


体检 结果 
BE. _ 1235 EK, (£8. 159 — AH, Wk. — 800 —— XJ 








图 2-1 体检 调查 设计 表 


资料 保存 在 data2-1.sav 和 data2-1.xls 文件 中 〔 见 配 书 光盘 )， 试 对 该 文件 的 身高 数据 
进行 频数 分 段 ， 制 作 频 数 表 ， 并 绘制 直方 图 。 


2.2.4 区 间 数 据 频 数 分 段 


频数 组 分 段 可 以 采用 可 视 化 分 组 CVisual Bander)， 也 可 以 采用 手工 分 组 (Recode), 
如 果 是 各 组 段 的 组 距 相 等 ， 还 可 以 利用 数学 公式 来 分 组 。 分 组 结果 一 般 应 该 保存 在 新 产生 
的 变量 内 ， 这 个 变量 表示 分 组 的 结果 ， 指 明 当前 观察 个 体 所 属 的 组 段 ， 所 以 分 析 中 常常 称 
这 类 变量 为 分 组 变量 。 

可 视 化 分 组 通过 在 数 轴 上 绘制 直方 图 〈 或 者 直 条 图 )， 把 分 组 过 程 和 分 组 点 在 数 轴 上 
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直观 地 表示 出 来 ， 可 以 立即 看 到 分 组 效果 ， 建 议 采 用 这 种 方法 进行 分 组 。 

1. 用 可 视 化 分 组 (Visual Bander) 进行 频数 分 段 

采用 可 视 化 分 组 方法 ， 对 实例 2-1 文件 数据 中 的 身高 进行 频数 分 段 。 
* 操作 提示 

Transform 

“Visual Bander ( 见 图 2-2 ) 

人 选择 相应 的 变量 (身高 ) 

Continue 





| 限制 扫描 例 数 | 


图 2-2 可视化 分 组 对 话 杠 


> 操作 选项 说 明 


Limit number of cases scanned to: 一 当 例 数 很 多 ， 预 分 析 耗 时 长 时 ， 可 以 限制 
”扫描 倒数 。 输 入 相应 的 例 数 


在 可 视 化 分 组 对 话 框 中 ， 既 可 以 手工 制定 分 组 方案 ， 也 可 以 自动 产生 分 组 方案 。 分 组 
效果 立即 在 图 中 的 直方 图 中 表示 出 来 ， 各 组 的 上 下 限 在 图 上 标示 为 蓝 色 的 分 隔 线 〈 见 图 
2-3 Je 

手工 分 组 时 ， 直 接 在 Value 的 空白 输入 框 中 输入 各 分 组 组 段 的 下 限 即 可 。 可 以 按 需要 
在 输入 框 中 修改 输入 数值 来 修改 分 组 ， 删 除 组 段 只 需 把 该 组 段 的 输入 框 中 数值 清空 即 可 。 
若 需 要 值 标签 ， 则 可 以 在 Label 框 直接 输入 标签 值 。 不 等 距 分 组 必须 采用 手工 分 组 的 方法 
来 完成 。 | 

如 果 是 等 距 分 组 ， 则 选择 Make Cutpoints 后 的 自动 分 组 非常 方便 。 

自动 分 组 的 结果 变量 取 值 是 从 数值 1 开始 的 连续 正 整 数 ， 其 中 1 对 应 于 第 1 组 段 ，2 
对 应 于 第 2 组 段 ， 依 此 类 推 。 可 以 这 样 理 解 ， 可 视 化 分 组 将 连续 变量 离散 化 了 。 
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| 频数 分 组 变量 表 | | 频数 分 组 结果 变量 | | 直方 图 | [arm || 











. in 
Enter Hb peeing ages rar o mde roa oi culpont value 
and ending at 





ue 
100.0 <100.0 
03.0 100.0 - 102.9 


106.0 103.0 - 105.9 
103.0 106.0 - 108.9 
112p 109.0 - 111.9 
115.4 112.0 - 114.9 
118.0115.0 - 117.9 


复制 到 其 | | 来 自 其 | 分 组 组 段 下 限 | | 组 段 值 标签 | 产生 值 || 产生 | 
他 变量 | | 他 变量 | — E 标签 |ar| 


图 2-3 可 视 化 分 组 方案 定义 对 话 框 

% 手工 分 组 操作 提示 

DEB 2-3 中 选择 Value 空白 输入 框 

\ 介 输入 各 分 组 组 段 的 下 限 值 

人 输入 各 分 组 组 段 的 值 标签 

\ 介 重复 该 过 程 直到 全 部 分 组 完成 

人 选取 Upper Endpoints 中 的 Excluded(<) 

BOK 
* 自动 分 组 操作 提示 

"他 选择 待 分 组 变量 (身高 ) 

Name: Banded Variables， 输 入 新 变量 名 


Label: 输入 新 变量 的 标签 
Dit Upper Endpoints 中 的 Excluded(<) 


Make Cutpoints... 
> 操作 选项 说 明 
Scanned Variable List 一 待 频数 分 组 变量 ， 单 击 选择 后 开始 频数 分 组 
Name: Banded Variable JR jk 2 2B25 3 RP, AAA 
“Label: 所 频数 分 组 结果 变量 标签 
-Value 一 频数 组 段 的 下 限 
“Make Cutpoints 号 自动 产生 等 距 分 组 组 段 
Label 所 频数 组 段 的 值 标 签 
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Make Labels cB P> 4248288 8) 48 AF25 
Upper Endpoints: Included(<=) c MU IR 6,8 48 ETR 
Upper Endpoints: Excluded(«) 号 频数 组 不 包含 本 组 上 限 
“Copy Bands From Another Variable có | Jt 4, d Ea 334 2 28. 

人 人 Copy Bands To Other Variable c Je X A 2 BL) 48 Jt 4 dE 
"BReverse scale 号 反 数 轴 尺 度 表示 


SPSS 提供 3 种 频数 分 组 的 方法 ， 即 等 距 区 间 分 组 、 百 分 位 数 分 组 和 标准 离 差分 组 ( 见 
图 2.4)。 而 在 实际 数据 分 析 中 ， 频 数 分 组 采用 按 观察 值 区 间 分 组 的 方法 最 为 多 见 。 在 分 界 
点 的 对 话 框 中 ， 等 距 区 间 分 组 有 三 个 参数 ， 实 际 操作 时 只 需 填 入 两 个 就 可 以 了 。 建 议 填 入 
最 小 组 下 限 和 组 数 两 个 参数 。 当 切换 到 没有 填 的 参数 输入 框 时 ， 系 统 自动 计算 其 值 。 


* 操作 提示 


Equal Width Intervals 

.输入 最 小 组 下 限 ( First Cutpoints Location ): ( 100 ) 
中 输入 (调整 ) 分 组 数 (Number of Cutpoints ): ( 11) 
DHA (调整) 组 距 (Width): (3) 

Apply 


ane | 组 数 || 最 小 组 下 限 





| 等 区 间 
| 分 组 









NA 


1 个 正 态 离 差 范围 | (am | 组 数 
图 2-4 可 视 化 分 组 的 自动 分 组 对 话 框 
> 操作 选项 说 明 


Equal Width Intervals 一 待 频数 分 组 变量 ， 单 击 选 择 后 开始 
频数 分 组 

First Cutpoint Location 一 最 小 组 下 限 

“Number of Cutpoint 一 组 数 
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Width 一 组 距 
“Equal Percentiles Based on Scanned Cases 号 基于 扫描 例 数 的 百 分 位 数 分 组 
“OCutpoints at Mean and Selected Standard 号 基于 扫描 例 数 的 均 数 和 标准 差 的 标 


Deviations Based on Scanned Cases 准 离 差分 组 
+- 1 Std Deviation Mean + 1xSD 
-+/- 2 Std Deviation = Mean + 2xSD 
-+H/- 3 Std Deviation «Mean + 3xSD 


自动 分 组 会 自动 覆盖 已 有 分 组 方案 ( 见 图 2-5)。 如果 频数 分 组 部 分 采用 的 是 等 距 分 组 ， 
部 分 是 不 等 距 分 组 的 分 组 方案 时 ， 必 须 先进 行 自动 分 组 ， 而 后 再 进行 手工 分 组 ， 才 能 正确 
完成 所 需 分 组 。 





图 2-5 “可视化 分 组 的 自动 分 组 覆盖 分 组 方案 确认 框 
a 操作 提示 


Make Labels... 
-OK s 


可 视 化 分 组 后 的 数据 表 效 果 如 图 2-6 所 示 。 


chld2. sav PSS Data Editor 
Lile Edit View Data Transform Analyze Graphs Milities Window Help 


NEIS el 


1055 150: 700 103 - 105.9 
105.6 151 1000/1030 105.9 


99 1067 145 800 1060-1089 
9 1068 146 1000 106.0- 108.9 


99 1070 133 900 1050-1089 
1090 160 1000 1090-1119 
1100 150 700 1090-1118 
OAS 1103 163 632 1090-1119. 11050 
—i dde meer tas Ln 
» NData View A Variatie View. / : TTE 
SPSS Pr 


Processor is rex 





图 2-6 ”可视化 分 组 后 的 数据 表 效 果 
2. 用 Recode 进行 频数 分 组 
采用 Recode 分 组 是 SPSS 最 传统 的 分 组 方法 , 该 方法 是 通过 直接 输入 组 段 的 上 、 下 限 
和 组 的 编码 来 进行 频数 分 组 。 需 要 注意 的 是 ， 如 果 不 想 让 频数 组 包含 组 的 上 限 ， 则 指定 组 
上 限时 采用 一 个 很 接近 组 上 限 的 数值 ， 例 如 ， 本 例 采 用 从 100 开始 ， 组 距 为 3 的 分 组 ， 则 
121 组 段 的 上 限 则 指定 为 123.9。 
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采用 Recode 分 组 方法 ， 对 实例 2-1 文件 数据 中 的 身高 进行 频数 分 组 。 
* 操作 提示 


“Transform 
Recode 
Into Different Variables ( 见 图 2-7 ) 
人 选择 变量 ( 身高 ) 

"OST. Name: sg fg2 

人 输入 Label: 采用 手工 分 组 
Change 

Old And New Values ( 见 图 2-8 ) 


Numeric Variable -> Dutput Variable: 


命 学 校 x] 
使 年 级 NG] 
DPS KH] 
BEZ KM] 
| E3 X8] 


® HEAR [CSRA] 
命 体重 (kgj [TZ] 

D Miki iml) [FHL] 

傅 身 高 [cm] (Banded) [sç 


| 全 采用 公式 分 组 [sa tg QldendNewValues.. | 
| If... | [optional case selection condition) 


| OK | pue | Bea | cesi | ve | 











图 2-7 Recode 分 组 对 话 框 

a 操作 提示 

人 ,选择 Range 

人 输入 组 段 下 限 、 上 限 

DÆ New Value 的 Value 框 中 输入 数据 

Add 

"O3 X £8 E £ X ñ 8] 2-2 ZAR 

Continue 

BOK 


New Value 
| € Vaje: [121 C Systemmissing 
(^ Copy old value(s) 
Olg -> New. 


[59 ] 118 thru 1203 -> 118 
128 thu 130.9 -> 128 


——— 124 thru 126.9 .> 124 
9-5 127 


127 thru 129 1 

130 thru Highest 130 S 
r 一 一 
I 


 Conime | — Cancel | Hep | 








图 2-8 Recode 分 组 的 分 组 方案 定义 对 话 框 
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3. 用 计算 公式 进行 频数 分 组 

如 果 采 用 等 距 分 组 方案 ， 且 已 知 数据 的 最 大 值 、 最 小 值 ， 则 可 以 采用 公式 计算 的 方法 
来 完成 频数 分 组 。 这 种 分 组 方法 有 很 高 的 灵活 性 ， 在 SPSS 程序 中 常常 使 用 。 频 数 分 组 的 
标准 计算 公式 为 : 

频数 分 组 结果 变量 =TRUNC( (变量 一 最 小 组 下 限 )/ 组 距 ) 

如 果 需 要 用 组 中 值 表 示 组 段 ， 则 公式 为 : 
频数 分 组 结果 变量 =TRUNC( (变量 -最 小 组 下 限 )/ 组 距 ) x 组 距 + 最 小 组 下 限 + 组 距 /2 

采用 计算 公式 方法 ， 对 实例 2-1 文件 数据 中 的 身高 进行 频数 分 组 。 
% 操作 提示 

Transform 

Compute ( 见 图 2-9 ) 

DHA Target Variable: sg fgl 

人 选择 Type & Label 

BHA Label: 采用 公式 分 组 

Continue 

Di4% Numeric Expression 

中 输入 公式 TRUNC((sg-100)/3)*34-100--3/2 

BOK 


本 例 采 用 的 频数 分 组 方案 为 从 100 开始 ， 组 距 为 3， 采用 组 中 值 表示 组 。 





会 身高 [cmj [SG] 





| 多 体重 kgl[[Z 
| Bei d [FHU 





1 T I 
命 身高 (cm) Banded) [sg 
|: so. igi visti 
| 


| 


i 





M. | (optional case selection condition] 


[or] Bee | Ben] ceu] _ne | 
图 2-9 使 用 计算 公式 来 进行 频数 分 组 公式 对 话 框 
2.2.2 B Frequencies 编制 频数 表 


频数 表 过 程 的 主要 功能 是 编制 频数 表 ， 计 算 描 述 统计 量 包含 的 百 分 位 数 、 统 计 图 。 利 
用 它 能 产生 原始 数据 的 详细 频数 ， 取 值 结果 还 能 用 于 数据 清理 。 


T» 
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1. 操作 过 程 


数据 类 型 与 统计 学 描述 ENDS 


频数 表 过 程 对 频数 分 组 结果 变量 分 析 ， 能 获得 正确 的 符合 习惯 的 频数 表 。 但 是 计算 描 
述 统计 量 ， 绘 制 直方 图 ， 则 应 该 采用 原始 变量 。 通 过 把 频数 分 组 结果 变量 的 取 值 修改 为 组 
中 值 后 再 进行 描述 统计 量 计算 ， 即 是 采用 频数 表 法 计算 描述 统计 量 。 利 用 公式 计算 获得 的 
频数 分 组 变量 可 以 直接 进行 描述 统计 量 的 分 析 。 


采用 Frequencies， 对 实例 2-1 文件 数据 中 的 身高 ， 按 频数 分 组 结果 编制 


频数 表 ， 并 计算 描述 统计 量 ， 绘 制 直方 图 。 


x 操作 提示 


Analyze 

Descriptive Statistics 
Frequencies ( 见 图 2-10 ) 

人 选择 频数 分 组 变量 (sg fg) 











| 统计 量 | | 统计 图 | | 输入 格式 | 








图 2-10 ”频数 表 过 程 对 话 框 


“Statistics... 

人 选择 相应 的 基本 统计 量 

Continue 

"Charts... 

"bHistograms 

“With Normal Curve 

"bContinue 

BOK 

6] 
Seatu Í 
D Alom) Banded) - 
佑 采用 手工 分 组 sg。 
Rra 
> 操作 选项 说 明 

人 他 变量 名 

"Variables 

"Display frequency tables 


全 选择 变量 
全 参加 分 析 变 量 ， 选 择 后 可 删除 
一 输出 数据 值 频数 表 
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Statistics... 宁 打 开 计 算 统 计量 对 话 框 
Charts... 号 打开 计算 统计 图 对 话 框 
"BFormat:.. 号 打开 输出 格式 对 话 框 


按 需 选择 需要 计算 的 描述 统计 量 。 注意: 百 分 位 数 的 计算 必须 输入 要 计算 的 百 分 位 数 
( 见 图 2-11)。 


| 输入 待 计算 的 百 分 位 数 | 






rima 


IV Mean 


| 计算 的 百 分 位 数 表 | 。 | 数据 是 组 中 值 | 


图 2-11 频数 表 过 程 统计 量 对 话 框 


> 操作 选项 说 明 
Percentile Values: 百 分 位 数 
-Quartiles 呈 四 分 位 数 
Cut points for ( M ) equal groups 一 分 成 相等 的 M 组 
"BPercentile(s) 一 输入 需 计 算 的 百 分 位 数 
-Add eR 
Change =£ x 
“Remove 全 删除 
Central Tendency: 集中 趋势 统计 量 
Mean SERPA 
Median epp 
“Mode 号 众 数 
-Sum sfe 
Dispersion: 离散 统计 量 数 
“Std. deviation = 2 
"B Variance =Z É 
“Range 号 全 距 
“Minimum 一 最 小 值 
Maximum cR 


"1 
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"BSkewness cr Aj JR. PC 
Kurtosis ARAK 
Values are group midpoints 号 数据 值 是 分 组 数据 的 组 中 值 


根据 资料 的 情况 选择 正确 的 图 形 〈 见 图 2-12)。 区 间 (尺度 ) 数据 应 该 选择 直方 图 ， 
而 非 区 间 数 据 可 以 选择 其 他 的 图 形 。 选 择 圆 饼 图 后 可 以 显示 数据 构成 情况 。 





图 2-12 频数 表 过 程 的 绘制 统计 图 对 话 框 


> 操作 选项 说 明 
“None e ig B 
Bar Charts - 一 绘制 直 条 图 ( 名 义 或 者 有 序 变量 ) 
"Pie Charts 一 绘制 圆 饼 图 ( 名 义 或 者 有 序 变量 ) 
Histograms cd) $E ( 区 间 变 量 ) 
“With normal curve c ñ B EM) Bibi d b 25 
Frequencies cam 
Percentages c8 m 


频数 表 过 程 的 输出 格式 对 话 框 如 图 2-13 所 示 。 





r Multiple Variables 
'* Compare variables 
( Organize output by variables 


[^ Suppress tables with more than n 
categories 


Maximum number of categories: 


图 2-13 频数 表 过 程 的 输出 格式 对 话 框 


> 操作 选项 说 明 
Order by: 输出 排序 方式 
"BAscending values c dk 848 3F 7 
Descending values 定数 据 值 降序 
Ascending counts c NR AES 
Descending counts 号 频数 降序 


Multiple Variables: 同时 计算 多 个 变量 时 输出 方式 
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"Bi Compare variables i 一 变量 间 比 较 方式 

Organize output by variables 一 按 单个 变量 输出 

Suppress tables with more than n categories ”一 当 输 出 分 类 超过 N 类 时 ， 取消 表格 式 
“Maximum number of categories 一 最 大 的 分 类 数 

2. 结果 解释 


如 结果 2-1 所 示 ， 频 数 表 过 程 在 结果 窗口 会 产生 1 个 Frequencies 条 目 和 5 +f £H, 
其 中 ，Statistics 条 目 为 计算 的 统计 量 表 ，Histogram 条 目 为 绘制 的 直方 图 ， 而 那个 不 能 看 清 
楚 条 目 名 的 就 是 频数 表 (因为 采用 了 中 文 变 量 标签 )。 


书生 Frequencies 
E Title 
B Notes 





结果 2-1 频数 表 过 程 的 输出 大 纲 


如 结果 2-2 所 示 ， 统 计量 表 中 统计 量 N 为 数据 例 数 ，Missing 为 缺失 数据 的 情况 ， 本 
例 没 有 缺失 ， 所 以 为 0。Percentiles 为 百 分 位 数 分 位 点 值 ， 其 中 前 面 的 9 个 分 位 点 为 均匀 
分 为 M 组 的 选项 所 对 应 的 百 分 位 点 值 ， 而 最 后 一 个 95 是 直接 指定 需 计 算 的 百 分 位 数值 表 
内 的 分 位 点 值 。 由 于 选择 了 数据 值 是 组 中 值 选项 ， 所 以 统计 量 表 下 面 有 a, b 两 个 注释 分 
别 说 明 计 算 方 法 为 频数 表 法 ， 而 非 直接 数据 值 的 计算 方法 。 


Statistics 













0 
118.3962 
118.10473 
5.78657 
104.50 |Z 
131.50 
111.0727b 






Percentiles 


a. Calculated from Grouped da 
b. Percentiles are calculated from grouped data 


结果 2-2 ”频数 表 过 程 输 出 的 统计 量 计算 表 
如 结果 2-3 所 示 为 按 频 数 分 组 要 求 产生 的 频数 表 。 其 中 第 一 栏 (Valid〉 内 为 数据 值 或 
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数据 类 型 与 统计 学 描述 _ 中 及 夏河 


者 值 标签 ， 可 以 给 数据 值 添加 值 标签 ， 使 输出 更 加 美观 。 如 果 不 是 频数 分 组 数据 ， 则 该 栏 
为 所 有 变量 的 数据 取 值 列 表 及 对 应 的 频数 分 布 情 况 。 注 意 表 的 标题 是 变量 的 标签 。 
采用 公式 分 组 


= en pg mm — 3 
Frequency Percent Valid Percent Percent 
3 28 28 28 
3 








PA MEE 


V. T Sanyesenssepessotoso sett bti sonia bot asas ed saad asas4sesassssseae6eesssososescesas 


结果 2-3 ”频数 表 过 程 输出 的 频数 表 


如 结果 2-4 所 示 为 频数 表 产 生 的 图 形 ， 图 上 曲线 为 理论 正 态 曲线 。 从 图 形 上 看 ， 可 以 
认为 该 资料 近似 正 态 分 布 。 


Histogram 


Frequency 





100.00 11000 12000 13000 
梁 用 公式 分 组 


结果 2-4 ”频数 表 过 程 输 出 的 直方 图 


2.3 FB Descriptives 进行 区 间 数 据 的 统计 描述 


描述 统计 过 程 (Descriptives) 主要 用 于 描述 统计 量 计算 和 变量 标准 化 。 与 Frequencies 
过 程 相 比 ， 其 统计 量 计算 除了 不 能 计算 百 分 位 数 外 ， 其 他 与 Frequencies 过 程 相同 。 
实例 2-2 试 对 实例 2-1 (data2-1.sav) 的 体重 数据 做 描述 性 统计 量 计算 ， 并 保存 其 标 


准 化 值 。 
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与 统计 分 


2.3.4. 操作 过 程 


对 实例 2-1 文件 数据 中 的 体重 计算 描述 统计 量 。 
a 操作 提示 


Analyze 

Descriptive Statistics 

"BDescriptives... ( 见 图 2-14 ) 

个 选择 变量 (4k * TZ) 

Options... 

-人 选择 相应 的 基本 统计 量 

Continue 
-Save standardized values as variables - 
BOK 


基本 统计 量 对 话 框 的 计算 项 目 基本 与 频数 表 过 程 相同 〈 见 图 2-15). 


| 合身 高 [cmj [SG] 
b Bri (b) [FHL 


合身 高 [nml fRandedi 


— a a 


hA Save standardized values as variables 





保存 标准 化 什 | 统计 量 | 
图 2-14 描述 统计 过 程 对 话 框 图 2-15 ”描述 统计 过 程 可 选项 对 话 框 

> 操作 选项 说 明 

Display Order: 输出 排序 方式 

“Variable list u 一 按 变量 选择 清单 的 顺序 

Alphabetic : 号 按 变 量 的 字母 顺序 

"B Ascending means 号 按 均 数 大 小 升序 

Descending means 定 按 均 数 大 小 降序 


2.3.2 ”结果 解释 


如 结果 2-5 所 示 , 描述 统计 过 程 在 结果 浏览 窗口 产生 1 个 Descriptives 条 目 和 3 个 子 条 
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数据 类 型 与 统计 学 描述 EHPNDES 


目 ， 描 述 统 计量 在 Descriptive Statistics 条 目 内 。 
- [&] Descriptives 
Ë Title 
b Notes 
` Descriptive Statistics 


结果 2-5 ”描述 统计 过 程 输出 大 纲 


如 结果 2-6 所 示 ， 描 述 统 计 过 程 与 频数 表 过 程 的 统计 量 表格 的 输出 方向 刚好 相反 ， 描 
述 统计 过 程 是 按 行 输出 的 ， 而 频数 表 过 程 是 按 列 输 出 的 。 当 同时 计算 很 多 变量 的 描述 统计 
量 时 ， 这 个 特征 保证 了 输出 表格 的 紧凑 性 ， 易 于 比较 。 


X E Statistics 


EL 





LL 18.255 = — — 
Valid 6 m 106 


结果 2-6 ”描述 统计 过 程 输出 的 描述 统计 量 表 


如 结果 2-7 所 示 ， 变 量 标准 化 值 由 在 活动 数据 表 中 新 生成 的 变量 ZTZ 保存 。 变 量 名 由 
系统 自动 产生 ， 通 常 是 在 原 变量 名 前 添加 字母 Z。 它 的 变量 标签 开始 为 “Zscore:”， 标 准 
化 后 的 变量 ZTZ 均 数 为 0， 标准 差 为 1。 


TE T. b. paruis res Wilitier iais R? 
uiae mi || xim os| rir] map rs el 
[.—1 [ Decimats | 


lumeric 


lumenc 
lumenc 





| 保存 标准 化 结果 的 标准 化 变量 | 


结果 2-7 ”描述 统计 过 程 输出 标准 化 变量 后 的 变量 编辑 窗口 


2.4 用 Explore 进行 区 间 数 据 的 统计 描述 


探索 性 数据 分 析 过 程 (Explore) 使 用 图 形 、 描述 统计 量 的 方法 来 探索 数据 的 分 布 特征 ， 
该 过 程 主要 适用 于 区 间 数 据 的 分 析 。 其 主要 功能 包括 : 

° 分 离 特 异 值 、 离 群 值 ; 

e 绘制 多 种 统计 分 布 图 ， 观 察 其 分 布 特征 ; 

e 描述 统计 量 的 计算 ， 包 括 稳 健 统 计量 的 估计 ; 

。 特定 分 布 特征 的 假设 检验 ; 

° 百 分 位 数 估算 ; 
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DEN 与 统计 分 析 — 


2.4.1 操作 过 程 
对 实例 2-1 文件 数据 中 的 肺活量 数据 做 探索 性 统计 分 析 。 
* 操作 提示 


"DAnalyze 

Descriptive Statistics 

"B Explore... ( 见 图 2-16) pcs 2: 
Dit XE (Dependent list): 肺活量 FHL 
Diti kE (Label Cases by): 姓名 XM ° 
JBStatistics... 

介 选 择 相 应 的 基本 统计 量 

Continue 

"Plots... 

Ji AE T8 pL 5 dci HI 

Continue 

BOK 


可 选 变量 | | 特异 值 标记 | | 分 组 变量 | 计算 变量 | 





输出 显示 统计 表 和 图 | 。 [seri || || 其 他 可 选项 
图 2-16 探索 性 数据 分 析 对 话 框 
选择 Factor List 后 ，Explore 能 够 直接 进行 分 组 分 析 。 


> 操作 选项 说 明 
-Dependent List 一 分 析 变 量 
Factor List 一 分 组 变量 
Label Cases by 号 数据 值 标示 变量 
“Statistics... 一 打开 统计 量 对 话 框 ( 见 图 2-17 ) 
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数据 类 型 与 统计 学 描述 EA 


Plots... 全 打开 绘图 对 话 框 
“©Options... 宇 打开 其 他 可 选项 
Display: 输出 方式 Ç 
-Both - | 0 字 统 计 表 和 统计 图 | 
-Statistics 号 统计 表 | 
Plots -ehhe 


探索 性 数据 分 析 除 了 能 计算 描述 统计 量 外 ， 还 能 进行 均值 的 置信 区 间 估 计 ， 以 及 均值 
的 稳健 估计 等 。 






亚信 区 问 | ^ Confidence Intervalfor Mear: [5 — x 

均值 稳健 估计 量 | 所 M-estimatots 
AER 
— H5 


图 2-17 探索 性 数据 分 析 统 计量 对 话 框 


> 操作 选项 说 明 
"BDescriptives ; i5 字 描 述 统 计量 
“Confidence Interval for Mean (x) % 号 计算 均值 的 x% 置 信 区 间 
“OM-estimators 之 均值 稳健 估计 
-Outliers : 一 离 群 值 
Percentiles 一 百 分 位 数 
Continue 呈 继 续 


通过 图 形 能 直观 地 观察 数据 的 分 布 特征 ， 探 索性 数据 分 析 能 绘制 多 种 分 布 相关 的 图 
形 ， 对 多 组 数据 还 能 进行 组 间 方 差 齐 性 检验 CLER 2-18). 


C Dependents together | jV Histogram 
C None | 


1 Normality plots with tests 
Spread vi. Level with Levene Test 





| 方差 齐 性 检验 和 数据 转换 方法 


图 2-18 探索 性 数据 分 析 的 绘图 对 话 框 


j 81 


与 统计 分 


3 操作 选项 说 明 
Boxplots: 箱 式 图 
Factor levels together - 一 绘图 时 按 分 组 变量 分 组 绘制 
Dependents together 一 绘图 时 分 析 变 量 一 起 绘制 
Descriptive: 描述 图 
他 Stem-and-leaf = >r 
“SHistogram 一 直方 图 
Normality plots with tests 全 正 态 概率 图 和 正 态 性 检验 
Spread vs. Level with Levene Test: 离散 对 水 平 图 ，Levene 方差 齐 性 检验 
None — eur en e s MEME 
“Power estimation : cR 
“Transformed 字 采 用 震 转 换 进 行 数据 转换 
“Power =£ 
"BUntransformed 号 不 转换 


缺失 数据 能 严重 影响 数据 的 分 析 ， 在 多 个 变量 同时 进行 分 析 时 ,会 导致 更 多 的 观察 个 
体 数 据 的 缺失 ( 见 图 2-19)。 





2-19 ”探索 性 数据 分 析 可 选项 对 话 框 


> 操作 选项 说 明 
Exclude cases listwise x SREE R A CAE 
Exclude cases pairwise a 一 成 对 排除 缺失 数据 
Report values 一 报告 数据 值 
- -E Esed 
2.4.2 结果 解释 i 
LEJ Descriptives 
如 结果 2-8 所 示 ， 探 索性 数据 分 析 输 出 Explore 外 sp 
条 目 ， 以 及 8 个 统 计 表 子 条 目 和 6 个 统计 图 子 条 目 。 ELT 


如 结果 2-9 所 示 ， 该 条 目 描述 参与 计算 的 数据 例 
数 。 





如 结果 2-10 所 示 ， 该 条 目 计算 7 个 固定 位 置 的 si 
百 分 位 数 。 结果 2-8 ”探索 性 数据 分 析 输 出 大 纲 
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Case Processing Summary 


Cases 


Nl 


[ Percent | N | Perem | N | Percent | 
[For mn | — — 106 | — 100096 | |. 10009 | 


结果 2-9 ”探索 性 数据 分 析 输 出 的 数据 情况 表 


Percentiles 


Weighte: 


[Res — a — —]-— L mas | -an | | 
结果 2-10 “探索 性 数据 分 析 输出 的 百 分 位 数 表 


如 结果 2-11 所 示 ， 该 条 目 是 数据 的 正 态 性 检验 结果 。 结果 表明 肺活量 数据 不 呈正 态 。 


Tests of Normality 


ar E a e E == ——=a— 
[Ssmi | or | sg [sus [ c T 9g - 
[WEN [ — 338] — 106 [ — 900-3457 


a. Lilliefors Significance Correction 











结果 2-11 探索 性 数据 分 析 输 出 的 正 态 性 检验 表 


如 结果 2-12 MR. 该 条 目 列 出 数据 表 的 最 大 5 个 数据 值 (降序 排列 ) 和 最 小 5 个 数据 
值 (升序 排 列 )， 数 据 在 数据 表 中 的 位 置 用 Case Number( 机 器 编号 ) 和 数据 变量 值 表示 。 


Extreme Values 


murs es | ewe | 
Uy 


XE 

Mi PREF 

39 |E 
49 |P 

3 | B EK 


8. Only a partial list of cases with the value 1100 are shown in the 
table of upper extremes. 


4 GQ M [Oo = Q N | 





5 


结果 2-12 ”探索 性 数据 分 析 输出 的 极端 值 数据 表 


如 结果 2-13 所 示 为 数据 的 直方 图 。 直 方 图 显示 数据 成 正 偏 态 分 布 ， 有 一 个 离 群 数据 。 

如 结果 2-14 所 示 为 数据 的 茎 叶 图 。 茎 叶 图 和 直方 图 显示 了 相同 的 结果 , 即 数 据 成 正 偏 
态 分 布 ， 有 一 个 离 群 数据 ， 该 数据 值 >=1200。 

如 结果 2-15 所 示 为 数据 的 正 态 QQ 图 , 数据 值 点 偏离 参考 很 多 , 提示 正 态 性 值得 怀疑 。 
同时 在 图 的 右上 方 提示 有 一 个 离 群 数据 。 

如 结果 2-16 所 示 为 数据 的 离 差 正 态 QQ 图 , 数据 值 点 偏离 参考 很 多 , 提示 正 态 性 值得 
怀疑 。 同 时 在 图 的 右上 方 提示 有 一 个 离 群 数据 。 
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Histogram 





8 


Frequency 
a 


Mean = 805.79 
Std. Dev. = 170.96 
N=106 





1000 


Miis hit (ml) 
结果 2-13 ”探索 性 数据 分 析 输 出 的 直方 图 


肺活量 (ml) Stem-and-Leaf Plot 
Frequency Stem & Leaf 

4.00 0012 

5568 

00000000233 

55 

0000000000000000000000 

555555 

000000000 

5558 

00000000000000000000000000 


— o c — — o @ m c0 


00000000001 


a . 00000 
. 00 Extremes (>=1200) 


Stem width: 100 
Each leaf: 1 case(s) 


结果 2-14 xS A rt th BJ EE 


Normal Q-Q Plot of 肺活量 (ml) 








Expected Normal 








E T TT s ss ss CIE ER 
400 600 800 1000 1.200 1400 1,600 
Observed Value 


结果 2-15 ”探索 性 数据 分 析 输 出 的 正 态 QQ 图 
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数据 类 型 与 统计 学 描述 


Detrended Normal Q-Q Plot of Ii è$ lit (ml) 











° 
ad 
t 
Ew 
z 
E | 
> 05 
à o 
o ° ° 
o 8o o 
00 
95 
o 
d 70—— T8: 5 =” A 7 7 Eh BLU 





7 ) 
400 600 900 1.000 1200 1400 1600 
Observed Value 


结果 2-16 ”探索 性 数据 分 析 输 出 的 离 差 正 态 QQ 图 
如 结果 2-17 所 示 为 数据 的 箱 式 图 。 在 较 大 数据 端 侧 ， 有 一 个 离 群 数据 值 。 


189-] 
was 
° 
«| 


bag 





1000-4 


900. 
| 
E 

肺活量 (ml) 


结果 2-17 探索 性 数据 分 析 输 出 的 箱 式 图 











2.5 FBBivariate 进行 变量 间 的 相关 与 协 方差 分 析 
当 分 析 两 个 变量 间 是 否 有 关系 时 ， 可 采用 简单 相关 分 析 。SPSS 的 简单 相关 分 析 使 用 


双 变量 分 析 〈Bivariate) 菜单 。 通 过 双 变 量 分 析 不 仅 能 计算 相关 系数 ， 也 能 计算 描述 统计 
量 。 


2.5.4 操作 过 程 


对 实例 2-1 文件 数据 中 身高 、 体 重 和 肺活量 做 相关 分 析 ， 并 计算 三 个 变 
量 的 方差 阵 。 
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DA sitom — 


a 操作 提示 


Analyze 

Correlate 

Bivariate ( 见 图 2-20 ) 

但 选 择 变量 ( 身高 SG， 体重 TZ， 肺活量 FHL) š 
“Options... 

Means and standard deviations 

"ÉCross-product deviations and covariances 

Continue 

BOK 


选择 Spearman 后 可 以 计算 等 级 相关 系数 ， 所 以 该 过 程 也 能 用 于 有 序数 据 的 相关 分 析 。 
该 过 程 的 描述 性 统计 量 是 可 选 计算 项 目 。 





> 
多 采用 手工 分 组 tsa 
$^ Zscore 体重 (kgjF 


Correlation Coefficients 











标 出 有 显著 性 | | 双 侧 检验 | 单 侧 | sa 
的 相关 系数 | | 检验 | 


Kd 2-20 ” 双 变 量 分 析 对 话 框 


| 其他 统计 量 


> 操作 选项 说 明 
DREL 全 选择 /取消 变量 计算 
Pearson SRRA £ 3 
Spearman 全 等 级 相关 系数 
“Kendall’s tau-b = Kendall 系数 
"B Two-tailed >AM 
"DOne-tailed bx [2 
Options... 宇 打开 其 他 统计 量 对 话 框 
Flag significant correlations 一 标示 有 显著 性 差异 的 相关 系数 
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数据 类 型 与 统计 学 描述 甘于 大 可 


选择 Means and standard deviations 后 进行 描述 统计 量 计算 〈 见 图 2-21)。 


(sumes) [waa | 








图 2-21 双 变 量 分 析 可 选项 对 话 杠 


> 操作 选项 说 明 
Means and standard deviations ”= 计 算 均 值 和 标准 差 
“OCross-product deviations and covariances 字 计 算 协 方差 协 阵 和 SSCP 阵 
Exclude cases pairwise x u 一 成 对 排除 缺失 数据 
Exclude cases listwise T 00 6ndEILEC ARE HR Sk 2 3 3 
2.5. ”结果 解释 


如 结果 2-18 所 示 ， 双 变量 相关 分 析 输 出 Correlations 条 目 ， 它 包含 4 个 子 条 目 。 条 目 
Correlations 为 相关 系数 阵 ， 而 Descriptive Statistics 条 目 为 描述 统计 量 结果 。 


I] Correlations 


Title 
I Notes 


[ Descriptive Statistics 
(dj Correlations 





结果 2-18 ” 双 变 量 分 析 输 出 大 纲 


如 结果 2-19 所 示 ， 双 变量 相关 分 析 输 出 描述 统计 量 内 容 很 少 , 仅 有 均值 、 标 准 差 和 例 
数 。 
Descriptive Statistics 
| Mean _| Std. Deviation | — N — | 
EE Om) 118.180 5.7703 106 


体重 (kg) 18.255 1.9746 106 
肺活量 (ml) 805.79 170.960 106 






结果 2-19 双 变 量 分 析 输 出 的 描述 统计 量 表 


如 结果 2-20 所 示 , 双 变 量 相关 分 析 输 出 相关 系数 阵 。 附加 协 方差 阵 计算 后 也 包含 了 协 
方差 和 SSCP 阵 ， 有 显著 的 相关 系数 用 * (P<0.05) 或 者 ** (P<0.01) 标示 。 结 果 表明 三 个 
变量 间 的 相关 系数 都 有 显著 性 ， 其 中 身高 与 体重 的 相关 系数 值 高 达 0.928， 而 其 他 两 个 相 
关系 数 仅 为 02 左右 。 
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乘积 相关 系数 Z: Pearson Correiation 

E X 

| SSCP Creseprodets ^. | 3496414 22517.528 
| el Covariance 32.208 214453 
i 


000 
1110.540 
10.577 












Pearson Correlation 
Sig. (2-tailed) 

Sum of Squares and 
Cross-producis 
Covariance 

N 



















3068869.4 


29227.3268 
106 






214453 
105 


**. Correlation is significant at the 0.01 teva! Q-teited). 
*. Correlation is significant a the 0.05 level (2-taiied). 


结果 2-20” 双 变量 相关 分 析 输 出 的 相关 系数 表 


2.5.8 ”描述 性 统计 分 析 过 程 的 比较 


描述 性 统计 分 析 可 以 使 用 很 多 过 程 来 完成 ， 除 了 SPSS 的 描述 分 析 菜 单 外 ， 其 他 的 一 
些 过 程 也 具有 相应 的 功能 。 总 的 来 说 ， 最 全 面 的 单 变量 描述 统计 分 析 过 程 是 探索 性 数据 分 
析 过 程 ， 而 描述 统计 分 析 过 程 是 最 常用 的 过 程 。 如 表 2-1 所 示 为 描述 性 统计 分 析 过 程 的 比 
较 表 。 


表 2-1 描述 性 统计 分 析 过 程 的 比较 表 


— Descriptive Statistics 
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2.6 ”名 义 数据 的 统计 描述 


通常 采用 计算 相对 数 指标 进行 名 义 数据 的 统计 描述 ， 常 用 的 指标 包含 率 、 构 成 比 和 相 
对 比 。 对 于 单个 名 义 变量 的 数据 分 析 ， 可 用 频数 表 过 程 来 计算 率 或 者 构成 比 ， 而 对 于 多 个 
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BDN 与 统计 分 析 [C 
名 义 变量 之 间 的 描述 分 析 ， 则 可 采用 交叉 表 Crosstabs) 分 析 。 
2.6.1 单个 名 义 变 量 的 描述 分 析 


1. 操作 过 程 
对 实例 2-1 文件 数据 中 的 性 别 和 学 校 两 变量 计算 其 构成 比 , 并 绘制 直 条 图 。 


a 操作 提示 


Analyze 

Descriptive Statistics 
Frequencies ( 见 图 2-22 ) 
只 选择 变量 ( 性别 XB， 学 校 XX ) 
Statistics... 

听取 消 所 有 的 基本 统计 量 
“Continue 

"Charts... 

Bar Chart 

Percentages 

Continue 

OK 


按 需 选择 直 条 图 的 纵 轴 采 用 频数 或 者 构成 比 〈 见 图 2-23). 


Ò FA NG] € 
命 学 号 bH] 

A: [XM] 

® HEAR [CSRO] 

| $ S (em) [SG] 

| & Eko) [TZ] 


| db Bei (ml) [FHL] 
$ Alom) Banded) g 
LA ORAA r. - 


Stoisics..| [phas] Eomac. | 





图 2-22 ”频数 表 分 析 对 话 杠 图 2-23 ”频数 表 分 析 绘图 对 话 杠 
2. 结果 解释 
如 结果 2-21 所 示 ， 按 变量 显示 参与 计算 的 例 数 。 本 例 原始 数据 表 没 有 缺失 数据 ， 所 以 
数据 例 相 同 。 


如 结果 2-22 所 示 为 性 别 变 量 的 频数 表 。 百分比 列 则 为 该 变量 的 构成 率 。 如 果 名 义 数 据 
的 结果 值 为 阳性 、 阴 性 ， 则 该 百分比 就 是 阳性 率 和 阴性 率 。 结 果 表 明 参 与 调查 的 女性 学 生 
居多 ， 占 总 数 的 72.6%， 男 性 学 生 仅 占 27.496. 
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数据 类 型 与 统计 学 描述 





Statistics 


性 别 
Cumulative 
NEED I 
C a | * | me FT ST a ns 
N valid 男 29 274 27.4 100.0 
Missing Total 106 100.0 100.0 
结果 2-01 频数 表 分 析 输 出 的 数据 情况 表 结果 2-22 ”频数 表 分 析 输 出 的 构成 比 


如 结果 2-23 所 示 为 学 校 变量 的 频数 表 。 结 果 表 明 参 与 调查 的 学 校 中 土 主 镇 和 西 永 镇 两 
个 小 学 的 学 生 最 多 ， 分 别 占 总 数 的 24.5% 和 23.6%， 占 了 总 数 的 一 半 。 


学 校 
Cumulative 
Frequency Percent | Valid Percent Percent 
9 .9 .9 
7.5 15 8.5 








aoo- oauan -oa -> 


结果 2-23 ”频数 表 分 析 输 出 的 学 校 构成 比 


如 结果 2-24 所 示 为 性 别 变量 的 直 条 图 。 图 上 直观 地 显示 了 女性 数量 比 男性 数量 多 
了 一 倍 多 。 


性 别 




















Percent 





女 男 
性 别 


结果 2-24 ”频数 表 分 析 输 出 的 分 性 别 直 方 图 


如 结果 2-25 所 示 为 学 校 变量 的 频数 表 。 图 上 直观 地 显示 了 土 主 镇 和 西 永 镇 两 个 小 
学 的 学 生 最 多 。 
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学 校 




















保 农 小 陈 家 桥 h 凤凰 镇 虎 溪 镇 并 口 小 青木 关 山洞 小 LER 西 永 镇 新 发 小 玉屏 小 兽 家 镇 
学 镇 小 学 学 小 学 小 学 学 镇 学 学 小 学 小 学 学 学 小 学 


结果 2-25 ”频数 表 分 析 输 出 的 分 学 校 直方 图 


2.6.2 多 指标 的 描述 分 析 


多 指标 分 析 主 要 采用 交叉 表 (Crosstabs) 分 析 。 交 叉 表 又 称 为 列 联 表 ， 交 叉 表 分 析 主 
要 用 于 非 区 间 数 据 的 统计 描述 分 析 和 假设 检验 〈 该 部 分 内 容 详 见 本 书 第 5 章 、 第 6 章 )， 
它 是 非 区 间 数 据 分 析 的 主要 工具 。 

1. 操作 过 程 

对 实例 2-1 文件 数据 ， 分 别 计算 各 学 校 参与 调查 学 生 的 性 别 构成 比 。 
a 操作 提示 


Analyze 

“Descriptive Statistics 

人 Crosstabs ( 见 图 224) ` m 

人 选择 变量 Row(s): ( 学 校 xx) 

人 选择 变量 Column(s): (性别 xB) 
. "BCells j 

亿 选 择 表 内 统计 量 

Continue 

“Display Clustered bar Charts... 

BOK 


交叉 表 分 析 至 少 指定 两 个 变量 ， 分 别 充当 行 变量 (Row) 和 列 变量 Column)。 如 果 
需要 进行 分 层 分 析 ， 则 需要 再 指定 层 变 量 (Layer)。 统 计 指 标的 计算 必须 指定 表 内 统计 量 。 
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[maza | | 层 变量 ] | 列 变量 | | 行 变量 | 


数据 类 型 与 统计 学 描述 EA 








[mames || 统计 量 | | 表 内 统计 量 | | 输出 格式 


图 2-24 ”交叉 表 分 析 对 话 框 


> 操作 选项 说 明 


“Rows 
"Columns 
Layers 
“Display clustered bar charts 
Suppress tables 
"Exact... 
"Statistics 
"Cells... 
“Format... 
“Previous 
“Next 


一 选择 行 变量 

一 选择 列 变量 

一 层 变量 

一 绘制 分 组 直 条 图 

一 取消 统计 表 输出 

一 打开 精确 概率 法 对 话 框 

一 打开 假设 检验 统计 量 对 话 杠 
一 打开 表 内 统计 量 对 话 杠 


一 输出 格式 


sH- Z 


o E 


对 于 非 区 间 数 据 的 描述 分 析 , 必须 选择 计算 所 需 的 统计 量 。 其 中 选项 Counts 为 输出 频 
数 ， 而 选项 Percentages 要 求 计 算 机 输出 行 、 列 或 合计 百分比 ( 见 图 2-25)。 当 列 变量 结果 
为 阳性 或 者 阴性 时 ， 行 百分比 就 是 分 组 阳性 率 。 


> 操作 选项 说 明 
Counts: 频数 
Observed 


Expected 
Percentages: 百分比 


Row 
Column 


一 实际 频数 
一 期 望 频数 


一 行 百分比 【分 组 构成 比 或 者 率 ) 
一 列 百 分 比 
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DN 与 统计 分 析 — 


Total 号 总 百分比 

Residuals: 残 差 : 
"BUnstandardized 号 实际 值 

-Standardized 一 标准 化 残 差 
Adjusted standardized 一 调整 标准 化 残 差 
Noninteger Weights: 非 整 数 权重 处 理 方 法 

Round cell counts 全 对 单元 格 权重 四 会 五 入 
Truncate cell counts cp UM E XU 
No adjustments 一 不 调整 的 权重 

Round case weights — 一 对 例 数 的 权重 四 伟 五 入 
Truncate case weights 14 i c sp Hs] Bcc Rode 






Residuals 
Iv Bow | Unstandardized 

IV Com | 厂 Standardized 

| |I Adjusted standardized 






mna 
标准 化 残 差 
调整 标准 化 残 差 | 











@ Round cell counts 个 Round case weights — | 
(^ Truncalecellcounis C Truncate case weights 
C No adustments 






图 2-25 ”交叉 表 分 析 表 内 统计 量 对 话 杠 


交叉 表 的 行 变量 数据 值 默 认 采 用 升序 排序 输出 , 可 以 选择 Descending 修改 为 降序 排序 
输出 〈 见 图 2-26)。 


Row Order 


C Descending — 





图 2-26 ”交叉 表 分 析 输 出 格式 对 话 杠 


> 操作 选项 说 明 
D Ascending = 行 变量 数据 值 升序 排序 
"8 Descending = 行 变 量 数据 值 降序 排序 
2. 结果 解释 


如 结果 2-26 所 示 ， 交 叉 表 过 程 输出 Crosstabs 条 目 ， 其 下 包含 5 个 子 条 目 。 交 叉 表 在 
“...Crosstabulation” 条 目下 。 绘 制 的 直 条 图 在 Bar Chart 条 目下 。 
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数据 类 型 与 统计 学 描述 


如 结果 2-27 所 示 为 参与 计算 的 例 数 信息 。 全 部 数据 参与 计算 ， 没 有 缺失 数据 。 
Case Processing Summary 
[—Á ——— 
O 
memi atea SI x T— et rix] 
结果 226 ”交叉 表 分 析 输 出 大 纲 结果 2.27 交叉 表 分 析 输 出 的 数据 情况 表 










如 结果 2-28 所 示 是 交叉 表 计 算 结 果 。 本 例 学 校 为 行 变量 ， 性 别 为 列 变量 。Cells 对 话 
框 的 选项 控制 该 表 的 编制 。 本 例 Count 为 实际 频数 ，%Within 性 别 为 行 百分比 ，%Within 
学 校 为 列 百分比 。 列 联 表 中 可 见 土 主 镇 小 学 与 西 永 镇 小 学 人 数 基本 相等 ， 这 两 个 学 校 人 数 
最 多 。 除 了 山洞 小 学 、 西 永 镇 小 学 参加 调查 的 男女 学 生 基 本 平衡 外 ， 其 他 学 校 参 加 调查 的 
男女 学 生 非 常 不 平衡 ， 女 生 远 远 多 于 男生 ， 且 个 别 学 校 仅 有 女生 参加 。 


学 校 TESI Crosstapulation 



































Count 
% withn 学 校 726% 27.4% 
% within PERI 100.0% 100.0% 








结果 2-28 ”交叉 表 分 析 输 出 的 列 联 表 


如 结果 2-29 所 示 是 以 行 变量 学 校 为 横 轴 、 列 变量 性 别 的 频数 为 纵 轴 绘 制 的 复式 直 条 
图 ， 比 较 了 各 学 校 参与 调查 的 性 别 构成 情况 。 从 图 中 可 以 看 出 ， 除 了 山洞 小 学 、 西 永 镇 小 
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EN in 


学 参与 调查 的 男女 学 生 基本 平衡 外 ， 其 他 学 校 参加 调查 的 男女 学 生 非 常 不 平衡 ， 女 生 远 远 
多 于 男生 ， 且 个 别 学 校 仅 有 女生 参加 。 











Bar Chart 
性 别 
m 
m 
15 
= 
所 
8 io 
o 
5 
0 
保 农 陈 家 —3 OUR DOK 并 口 青木 山 油 LE 西 永 新 发 do fr 
小 学 桥 镇 小 学 镇 小 镇 小 
小 学 


小 学 关 镇 小 学 镇 小 镇 小 小 学 小 学 镇 小 
学 小 学 学 
学 校 
结果 2-29 ”交叉 表 分 析 输 出 的 复式 直方 图 


第 3 X ”概率 分 布 与 正 态 性 检验 





3.1 概率 分 布 


3.1.1 正 态 分 布 


正 态 分 布 normal distribution) 在 统计 学 中 是 一 个 非常 重要 的 连续 型 分 布 ， 它 是 由 德 
国 数学 家 C. F. Gauss 和 法 国 数学 家 P. S. Laplace 分 别 于 19 世纪 初期 提出 的 , 又 被 称 为 高 斯 
分 布 〈Gauss Distribution)， 许 多 分 布 〈 如 二 项 分 布 、Poisson 分 布 、! 分 布 等 ) 在 特定 条 件 
下 近似 正 态 分 布 。 虽 然 英国 统计 学 家 K. Pearson 证 明了 正 态 分 布 只 是 自然 现象 分 布 的 一 种 
形式 ， 但 它 是 自然 界 和 人 类 社会 中 最 常见 的 一 种 概率 分 布 ， 无 论 在 理论 研究 上 还 是 实际 应 
用 中 都 占有 十 分 重要 的 地 位 。 

1. 正 态 分 布 的 概率 密度 函数 

若 连 续 型 随机 变量 X 的 概率 密度 函数 是 : 
3 


f(x)= l e? £j —00 < x < +00 (3-1) 


OV2n 

SUITES X BA ESSA, WA X—N(Q o), 其 中 1，o 分 别 为 正 态 分 布 的 位 置 参 数 和 形 
状 参数 。 

一 般 地 说 ， 若 影响 某 一 连续 型 随机 变量 的 随机 因素 很 多 ， 而 每 个 因素 所 起 的 作用 又 都 
有 比较 小 ， 那 么 这 个 随机 变量 的 取 值 就 服从 或 近似 地 服从 正 态 分 布 。 例 如 ， 健 康 体检 中 同 
年 龄 、 同 性 别人 的 身高 、 体 重 、 红 细胞 数 等 ， 实 验 中 的 测量 误差 也 服从 正 态 分 布 。 

正 态 分 布 概率 密度 函数 的 曲线 〈 简 称 正 态 曲线 ) 两 头 低 、 中 间 高 ， 以 位 置 参 数 /为 中 
心 左右 对 称 ， 略 呈 钟 形 〈 见 图 3-1)。 

为 了 应 用 方便 ， 可 将 公式 〈3-1) 进行 变量 变换 ， 即 


HERZ (3-2) 
G 





与 统计 分 


Jo) 


0.20 0-2 
0.16 
0.12 0-3 
0.08 
0.04 


0.00 


3-1 不 同 c 的 正 态 分 布 概率 密度 函数 的 曲线 形状 


将 多 转化 为 标准 正 态 变量 Z (Z 的 取 值 为 z)。 就 图 形 来 说 ， 就 是 把 原点 移 到 /的 位 置 ， 
横 轴 以 o 为 单位 。Z 的 概率 密度 函数 为 : 


z? 


p(z) =— e 2 ,—oo < z < +00 (3-3) 


J2n 
Z Ir fa S REIESS AB. WA Z—N(, 1)。 
在 实际 工作 中 常常 需要 知道 正 态 曲线 下 横 轴 上 一 定 区 间 的 面积 ， 以 了 解 变量 值 落 在 该 
区 间 的 概率 。 这 个 一 定 区 间 的 面积 可 以 通过 对 公式 (3-1) 的 广义 积分 求 得 : 
l(t-u 


Fos | fOis = pex “oo < x<+oo (3-4) 


公式 (3-4) 就 是 变量 X 的 分 布 函数 ， 是 正 态 曲线 下 自 -co 到 某 定 值 x 的 左 侧 累计 面积 
(概率 )。 如 果 对 公式 G- 积分 ， 计 算 将 简便 : 





t? 
$(2-[ eoa = = ? dr (3-5) 


式 中 ，G@z) 为 标准 正 态 变量 z 的 分 布 函数 , 是 正 态 曲线 下 自 -co 到 某 定 值 x 的 左 侧 累计 面积 。 
在 实际 工作 中 ， 我 们 不 必 自 己 计算 ， 因 为 数学 家 按照 公式 (3-5) 计算 并 编制 了 工具 表 ， 需 
要 时 查 表 即 可 。 公 式 (3-1) 与 公式 (3-4) 的 图 形 见 图 3-2， 公 式 (3-3) 与 公式 (3-5) 的 
图 形 见 图 3-3。 
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概率 分 布 与 正 态 性 

















图 3-2 正 态 分 布 的 面积 与 纵 高 图 3-3 标准 正 态 分布 的 面积 与 纵 高 


2. 正 态 分 布 的 主要 特征 
(OD ESH (Normal Curve). 在 横 轴 上 方 ， 均 数 处 的 纵 坐 标 最 高 。 以 标准 正 态 分 布 


为 例 ， 无 论 z 取 正 值 还 是 负 值 ，e 2 均 为 正 ， 故 oz) 必 为 正 ， 所 以 曲线 在 横 轴 的 上 方 。 式 


H -= -03989， 为 常量 ，z 的 绝对 值 越 小 ， 则 e 2 的 值 越 大 ， 纵 坐标 wz) 值 就 越 大 ， 也 就 
TU 


是 在 均 数 0 处 wz) 值 最 大 ， 此 处 oO)= —l. 03989. 
Jn 

(2) 正 态 分 布 以 均 数 /为 中 心 , 左右 对 称 ， 当 xut, OME x 的 增 大 而 增 大 ; 当 x>u 
WI. OME x 的 增 大 而 减 小 。 

OD 在 正 态 分布 中 ， 均 数 、 中 位 数 、 众 数 相等 。 

(D 正 态 分 布 有 两 个 参数 (Parameter)， 即 均 数 j 和 标准 差 g， 其 中 /是 位 置 参 数 ， 当 o 
恒定 后 ，A 增 大 ， 则 曲线 沿 横 轴 向 右 移动 ， 反之 ，/A 减 小 ， 则 曲线 沿 横 轴 向 左 移动 。c 是 形 
状 参数 ， 当 J 恒定 时 ，o 越 大 ， 表 示 数 据 越 分 散 ， 曲 线 越 “ 矮 胖 ” a 越 小 ， 表 示 数 据 越 集 中 ， 
曲线 越 “ 瘦 高 "” 如 图 3-1 所 示 。 可 见 有 了 A 和 co， 就 把 正 态 分 布 确定 下 来 了 。 

(5) 正 态 分 布 曲线 下 的 面积 分 布 有 一 定 规律 。P{4 -Ga <x<u+o)=0.6827, Eh X ZEDX lj 
(u—o, H+ 内 取 值 的 概率 为 0.6827; P{u 一 1.960 <x<u+1.96o)=0.95, Bl X Z < lšj(u—1.96o, 
A+1.96g) 内 取 值 的 概率 为 0.95; P[u -2.58G <x<u+2.580}=0.99, BB X 在 区 间 (1-2.580o, 
A++2.58 四 内 取 值 的 概率 为 0.99。 

3. 正 态 分 布 的 应 用 

(OD 在 没有 一 个 是 主导 的 许多 微小 且 独 立 的 随机 因素 作用 下 ， 其 总 结果 一 般 表 现 为 正 
态 分 布 ， 如 随机 误差 的 分 布 、 某 些 生理 现象 的 频率 分 布 等 ， 都 符合 正 态 分 布 。 

(2) 不 少 医学 现象 是 服从 正 态 分 布 或 近似 正 态 分 布 的 , 如 同性 别 、 同 年 龄 儿童 的 身高 ， 
同性 别 健康 成 人 的 红细胞 数 、 血 红 蛋 白 量 、 脉 搏 数 等 ， 实 验 中 的 随机 误差 ， 一 般 表 现 为 正 
态 分 布 ， 有 的 医学 资料 虽 不 呈正 态 分 布 ， 但 可 经 过 变量 变换 ， 转 换 为 正 态 分 布 ， 这 样 在 转 
换 后 就 可 按 正 态 分 布 规律 来 处 理 。 

(3) 服从 正 态 分 布 的 资料 正常 值 范围 估计 以 及 质量 控制 图 的 绘制 ， 后 者 如 为 了 控制 实 
验 中 的 检测 误差 ， 常 以 卫士 25 EAE FERE, UX 3s 作为 上 、 下 控制 值 ， 这 里 的 
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2S 和 3S 就 是 1.96$ 和 2.58S 的 近似 数 ， 是 根据 正 态 分 布 得 到 的 。 

(4) 正 态 分 布 是 很 多 统计 方法 的 理论 基础 ， 如 米 分 布 、! 分 布 和 下 分 布 等 都 是 在 正 态 
分 布 的 基础 上 推导 出 来 的 。 某 些 分 布 ， 如 ! 分 布 、 二 项 分 布 、Poisson 分 布 等 的 极限 均 为 正 
态 分 布 ， 在 一 定 条 件 下 ， 均 可 按 正 态 近似 的 原理 来 处 理 。 

(5) 常用 的 z 检验， 以 z 作为 统计 量 ， 就 是 以 正 态 分 布 为 理论 基础 的 。 


3.1.2 ”二 项 分 布 


一 些 试验 的 结果 只 有 两 种 可 能 , 如 抛 硬币 出 现 正面 还 是 反面 , 婴儿 的 性 别 为 男 还 是 女 ， 
诊断 试验 的 结果 为 阴性 还 是 阳性 等 。 这 些 例 子 有 3 个 共同 的 特性 。 
COD 每 次 试验 的 结果 只 有 两 个 ， 统 计 学 中 我 们 常 把 一 个 结果 称 为 成 功 ， 用 5 表示 ; 5 
一 个 结果 称 为 失败 ， 用 FF 表示 ， 至 于 哪 一 个 结果 称 为 成 功 则 无 关 紧 要 。 
(2) 在 每 一 种 情况 下 ， 每 次 试验 的 结果 为 成 功 的 概率 x (0<x<1) 为 常数 。 如 一 个 试验 
中 ， 将 小 白鼠 死亡 称 为 成 功 ， 则 对 于 所 有 的 小 白鼠 来 说 ， 成 功 的 概率 是 相同 的 。 
(3) 在 每 一 种 情况 中 ， 试 验 间 是 相互 独立 的 ， 如 观测 到 哪 只 小 白鼠 死亡 ， 这 一 结果 不 
影响 其 他 任何 一 只 小 白鼠 是 否 存活 或 死亡 。 
一 个 试验 如 果 具 有 上 述 3 个 特性 ， 我 们 就 称 之 为 贝 努 利 试 验 (Bernoulli Experiment), 
1. 二 项 分 布 的 概率 函数 
在 贝 努 利 试验 中 ， 记 义 为 某 一 结果 (如 死亡 ) 出 现 的 次 数 ， 则 XX 是 一 个 离散 型 随机 变 
量 , 它 可 能 的 取 值 为 :0,1,2,……m 它 服从 的 分 布 我 们 称 为 二 项 分 布 (Binomial Distribution). 
在 现实 生活 中 ， 我 们 常常 感 兴趣 的 是 ， 在 n 次 贝 努 利 试验 中 ， 成 功 结果 为 x 次 的 概率 。 
设 小 白鼠 接受 一 定 剂量 的 某 种 毒物 处 理 后 , 有 80% 的 死亡 , 现 用 甲 、 乙 、 
两 、 丁 4 只 小 白鼠 做 实验 ， 用 瑟 表 示 4 只 小 白鼠 死亡 的 个 数 变量 ， 求 死亡 个 数 为 x 时 的 概 
率 p(x)。 
此 例 中 将 死亡 称 为 成 功 ， 每 次 试验 中 成 功 的 概率 为 斑 0.8， 失 败 的 概率 为 1—m=0.2, + 
例 中 n=4. 
当 x=0 时 , 即 无 一 只 小 白鼠 死亡 , 则 4 次 试验 的 结果 为 : FFFF。 由 于 试验 间 相 互 独立 ， 
故 由 概率 的 乘法 原则 ， 可 得 : 
p(0)=P{X=0}=P(FFFF)=P(F)P(F)P(F)P(F)=(0.2)(0.2)(0.2)(0.2)=0.24=0.0016 
24 x=1 时 , 即 4 只 小 白 卖 中 有 且 仅 有 一 只 死亡 , 则 4 次 试验 所 有 可 能 的 结果 为 : SFFF、 
FSFF. FFSF 和 FFFS， 则 : 
p(1)=P{X=1}=P(SFFF)+P(FSFF)+P(FFSF)+P(FFFS) 
=P(S)P(F)P(F)P(F)+P(F)P(S)P(F)P(F)+P(F)P(E)P(S)P(EY+P(F)IP(E)P(F)PS) 
=(0.8)(0.2)(0.2)(0.2)+(0.2)(0.8)(0.2)(0.2)+(0.2)(0.2(0.8))(0.2)+(0.2)(0.2)(0.2)(0.8) 
=4x0.8x0.23-0.0256 
对 于 x=2, 4 次 试验 所 有 可 能 的 结果 为 : SSFF. SFSF, SFFS. FSSF. FSFS. FFSS. 
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上 面 6 种 情况 的 概率 都 为 0.8"x0.2*， 因 而 
p(2)=P{X=2}=6x0.8°x0.2=0.1536 
同 理 ， 我 们 可 以 得 到 : 
p(3)=P{X=3 }=4x0.8°x0.2=0.4096 
p(4)=P{X=4}=0.84=0.4096 
按照 同样 的 原理 ， 我 们 可 以 给 出 n 次 试验 中 ， 成 功 次 数 为 x 的 概率 的 一 般 公式 : 


po Pix «e ra) X=0,1,2,.…,n (3-6) 
x 


公式 (3-6) 是 二 项 分 布 的 概率 函数 。 二 项 分 布 的 命名 是 因为 它 的 概率 函数 的 表达 式 正 
HEIRE- 的 通 项 。 

34 n 和 为 已 知 时 ， 则 可 按 公 式 〈3-6) 计算 出 x=0,1,2…,n 时 各 值 的 概率 ， 由 此 可 画 
出 二 项 分 布 的 图 形 ( 见 图 3-4)。 其 中 横 轴 为 x ， 纵 轴 为 p(x) 。 





0.40 0.40 
0.35 n =10, X=0.2 0.35 n =10, x =0.5 
0.30 0.30 
0.25 0.25 
0.20 0.20 
0.15 0.15 
0.10 0.10 
0.05 0.05 
0.00 0.00 
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 
(a) n=10, 7-0.2 (b) n=10, 7=0.5 
0.40 
0.35 n-20,1-02 
0.30 
0.25 
0.20 
0.15 
0.10 
0.05 





0.00 


0 2 4 6 8 10 12 14 16 18 20 


(c) n=20, z-0.2 


3-4 ”不同 参数 的 二 项 分 布 概率 函数 图 


从 上 面 的 图 形 中 可 以 看 出 ， 当 xri, po% x 的 增 大 而 增 大 ， 当 nt, pobi 
着 x 的 增 大 而 减 小 ， 当 x=nz 村 ，p(x) 达 到 最 大 值 ( 注 : 当 x=0,1,2,…',n 时 ， 只 取 整 数 ， 当 
nA 为 非 整 数 时 ， 四 舍 五 入 ; 当 nz 二 0.5, 1.5, 2.5,… 时 ，x 取 邻 近 两 个 整数 ， 此 时 p(x) 相 等 ， 
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HROSAHSCKÉO. 24m=0.5 时 ， 二 项 分 布 呈 对 称 分布 ; 当 7rz0.5 时 ， 二 项 分 布 呈 偏 态 分布 ， z 
离 0.5 越 远 ， 偏 态 越 明 显 ， 但 随 着 n 的 增 大 ， 二 项 分 布 又 逐渐 近似 于 正 态 分 布 。 

2. 二 项 分 布 函数 

对 于 贝 努 利 试 验 ， 我 们 还 想 知道 的 是 在 n 次 实验 中 ， 最 多 有 x 次 试验 成 功 的 概率 。 在 
例 3-1 中 ， 我 们 想 知 道 接 受 毒 物 处 理 后 ， 最 多 有 3 只 小 白鼠 死亡 的 概率 ， 即 求 P(X«3). 
根据 概率 的 加 法 原则 ， 可 得 : 

P{X<3}=p(0)+p(1)+p(2)+p(3)=0.0016+0.0256+0.1536+0.4096=0.5904 
同样 ， 还 可 以 求 出 至 少 有 3 只 小 白鼠 死亡 的 概率 P[X2>3): 
P(X>3)=p(3)+p(4)=0.4096+0.4096=0.8192 
一 般 的 ， 我 们 可 以 用 下 面 公式 计算 : 


k 
P(X<k)= Y p(x) (3-7) 
x=0 
k-1 
P(X2k)=1- M p(x) (3-8) 


x20 
AA (3-7) 常 称 为 二 项 分 布 函数 或 贝 努 利 分 布 函数 ， 有 时 也 称 公 式 (3-8) 为 二 项 分 
布 函数 。 
3. 二 项 分 布 的 均 数 与 标准 差 
对 于 一 般 的 离散 分 布 ， 其 总 体 均 数 与 标准 差 可 由 公式 (3-9) 及 公式 (3-10) 算得 。 
u= Fapa) (3-9) 


o = JY x- 1 p) (3-10) 
在 例 3-1 中 ， 我 们 分 别 计算 总 体 均 数 和 方差 为 : 
H=}, p0) f 
-0: p(0) € 1- p(D - 2- p(2) € 3- p(3) +4: p(4) 
=1x0.0256 + 2x 0.1536 + 3x 0.4096 + 4x 0.4096 
-32-4x0.8 
o° =F x-uy Po) 
= (0—3.2)? p(0) + (1- 3.2? p) + (2 3.2)? p(2) + (3 — 3.2)? p(3) + (4 3.2)? p(4) 
— 3.27 x0.0016 + 2.2? x 0.0256 +1.22 x 0.1536 + 0.2? x 0.4096 + 0.8? x 0.4096 
20.64 2 4x0.8x (1— 0.8) 
一 般 的 ， 二 项 分 布 的 均 数 与 标准 差 为 : 


HU. = nz: (3-11) 

o= /nz(1 —z) (3-12) 
若 考虑 总 体 率 的 均 数 、 标 准 差 ， 则 有 : 

Hp-Zz (3-13) 
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o, - Z0 (3-14) 
n 
4. 总 体 率 的 区 间 估 计 


某 地 调查 了 50 万 人 ,其 中 胃癌 患者 50 人 , 问 该 地 区 胃癌 的 发 病 率 是 多 
少 ? 
态 分 布 ， 其 总 体 率 的 置信 区 间 可 通过 下 式 计算 。 
(p — Ze p, P + za/2Sp) (3-18) 
公式 (3-15) 中 jp 为 样本 率 ，5, 为 样本 率 的 标准 误 。 





50 
| 3-2 rH, XA p= =0.01% 
在 例 3.2 P, RA pe 500000 0019 
$,- [pd - p) _ |0.019:(1— 0.0196) = 0.001414% 
n 500000 


因而 总 体 率 的 95% E ES P< IR] 28 : 
(0.01%—1.96x0.001414%, 0.01% +1.96x0.001414%)=(0.7229x10*, 1.2771x10 ^) 
故 该 地 区 的 总 体 发 病 率 很 可 能 在 (0.7229x10“, 1.2771x10 5EZ(0.72/77, 1.28/ 万 ) 之 间 。 


3.1.3 Poisson 分 布 


Poisson 分 布 是 由 法 国 数学 家 S. D. Poisson 于 1837 年 提出 的 ， 用 于 研究 稀有 事件 在 单 
位 时 间 (空间 ) 内 发 生 次 数 的 频数 分 布 。 例 如 ， 放 射 性 物质 在 单位 时 间 内 放射 出 的 质点 数 ， 
一 定 人 群 中 某 种 患 病 率 很 低 的 非 传染 性 疾病 患 病 数 或 死亡 数 ， 细 菌 、 血 细胞 、 粉 尘 等 在 单 
位 面积 或 空间 内 的 计数 结果 的 分 布 ， 等 等 ， 都 可 以 用 Poisson 分 布 来 描述 。 

Poisson 分 布 的 应 用 需要 满足 两 个 条 件 。 

(1) 事件 在 每 一 个 单位 时 间 “空间 〉 内 发 生 次 数 的 概率 相同 ， 与 事件 何 时 发 生 (或 发 
生 在 何 处 ) 无 关 。 

(2) 事件 在 某 单位 时 间 《 空 间 》 内 的 发 生 次 数 不 影 响 该 事件 在 另 一 单位 时 间 〈 空 间 ) 
内 的 发 生 次 数 。 

1. Poisson 分 布 的 概率 函数 

若 所 研究 的 事件 满足 上 述 两 个 条 件 , 则 该 事件 在 单位 时 间 (空间 ) 内 发 生 x 次 的 概率 为 : 


pG)e PU x] ee T, x-0,1,2,^, A20 (3-16) 

公式 (3-16) 称 为 Poisson 分 布 的 概率 函数 ， 其 总 体 均 数 L 和 方差 of 分 别 为 ; 
u= Pe!)= (3-17) 
e! -Xje- m e^ 4-4 (3-18) 
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某 放 射 性 物质 平均 每 分 钟 发 出 10 个 质点 ， 在 1 分 钟 内 发 出 5 个 质点 的 
概率 有 多 大 ? 

此 例 中 4=10，xzx=5。 

aA” 0105 4.54 
p(5-e us T DO e 

BU 1 分 钟 内 该 放射 性 物质 发 出 5 个 质点 的 概率 约 为 4%。 

2. Poisson 分 布 的 图 形 

已 知 1， 就 可 以 按 公式 (3-160 计算 出 x=0, 1, 2,… 时 的 poo fl, UL x AA, HUE P 
为 纵 坐 标 ， 即 可 绘 出 Poisson 分 布 的 图 形 ， 如 图 3-5 所 示 。 . 


0.30 0.30 7 

0.25 0.25 

0.20 0.20 

0.15 0.15 

0.10 0.10 

0.05 0.05 

0.00 0.00 

0 2 4 6 8 10 12 14 16 18 20 0 2 4 6 8 10 12 14 16 18 20 
x x 
(a) A22 (b) À-5 

030 P 
0.25 
0.20 
0.15 
0.10 
0.05 
0.00 


0 2 4 6 8 10 12 14 16 18 20 
(c) A210 
图 3-5 不 同 参数 的 Poisson 分 布 概率 函数 图 
从 图 3-5 中 可 以 看 出 ，Poisson 分 布 的 图 形 取决 于 4 的 大 小 ， 并 且 具 有 以 下 特点 。 
(1) 当 hM<1 时 ， 其 概率 随 x 的 增 大 而 减 小 ， 而 当 人 >1 时 ， 其 概率 先 增 大 后 减 小 。 
(2) 图 形 在 小 于 4 的 最 大 整数 处 有 极 大 值 。 当 4 为 正 整 数 时 ， 在 两 个 相 邻 的 值 x-A—1 和 
(D 非 对 称 分 布 ， 有 正 偏 度 系 数 





1 1 
， 当 4 充分 大 时 一 - =0， 分 布 近似 对 称 分 布 。 
A HAR A 0 近似 对 称 
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3. Poisson 分 布 的 特征 

(1) Poisson 分 布 的 数字 特征 

Poisson 分 布 的 均 数 和 方差 分 别 为 : 
u=A (3-19) 
P=À (3-20) 

(2) Poisson 分 布 与 二 项 分 布 的 关系 

对 杆 一 个 较 大 样本 含量 n 及 较 小 的 事件 概率 x〈 辟 如 7<0.05 日 n>10), 使 得 1-054055: 

于 1 的 二 项 分 布 都 可 以 用 和 nz 的 Poisson 分 布 近似 得 到 ， 可 以 简化 运算 。 
(3) Poisson 分 布 与 正 态 分 布 的 关系 
当 A>9 时 , 累积 概率 P(X<k)= Y pw = Ye = 近似 于 标准 正 态 分 布下 区 间 (—oco,z,) 
x= : 


x=0 
大 一 人 
的 面积 ， 其 中 zx UAR 
(4) Poisson 分 布 中 A 的 置信 区 间 
车 x 为 实际 观察 到 的 某 事件 发 生 的 次 数 ， 当 x<50 时 ,4 的 置信 区 间 可 通过 查 表 的 方式 


得 到 ， 当 x>50 时 ， 我 们 可 用 公式 (3-21) 求 近似 的 置信 区 间 。 
2 2 
Za Za _ 
(5-3) ( x+1+— J | (3 21) 


3.2 ”抽样 分 布 


在 上 一 节 中 ， 介 绍 了 儿 种 随机 变量 的 概率 分 布 ， 本 节 将 学 习 样 本 统计 量 ( 如 样本 均 数 
X. FOE p、 样 本 标准 差 $) 的 分 布 ， 即 抽样 分 布 “Sampling Distribution )。 从 同一 总 体 
中 ， 随 机 抽取 相同 含量 的 样本 ， 每 次 抽取 的 样本 均 可 计算 出 一 个 样本 统计 量 值 ， 样 本 统计 
量 的 所 有 可 能 取 值 的 分 布 就 是 抽样 分 布 。 

例如 ， 从 同一 总 体 中 随机 抽取 相同 含量 的 样本 ， 每 次 抽取 的 样本 都 可 计算 获得 一 个 样 
本 均 数 ， 样 本 均 数 的 分 布 称 为 均 数 的 抽样 分 布 。 样 本 均 数 与 其 总 体 均 数 之 间 完 全 相同 的 可 
能 性 很 小 ， 为 了 测量 样本 均 数 与 其 总 体 均 数 之 间 的 接近 程度 ， 抽 样 分 布 起 了 重要 的 作用 ， 
抽样 分 布 是 统计 学 推断 的 基础 。 下 面 将 介绍 几 种 常见 的 抽样 分 布 。 


3.2.1 1 分 布 


根据 中 心 极限 定理 ， 即 使 统计 量 所 来 自 的 总 体 不 服从 正 态 分 布 ， 但 当 样 本 含量 足够 大 
时 ， 统 计量 的 分 布 也 近似 服从 正 态 分 布 。 上 一 节 介绍 正 态 分 布 时 ， 提 到 了 标准 正 态 变换 ， 
由 公式 z=(x 一 W/o 可 将 一 般 正 态 分 布 N(1,o”) 转 化 为 标准 正 态 分 布 N(0,1) REESS 
HERA z 分 布 )。 同 样 ， 如 果 样 本 均 数 叉 的 分 布 服 从 一 般 正 态 分 布 Nuz) 或 
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NGüuo?/n) ， 则 可 由 公式 : 
z= X-u 
o! dn 
将 一 般 正 态 分 布 转化 为 标准 正 态 分 布 N(0,1) 。 
但 是 ， 由 于 在 实际 研究 中 通常 不 知道 总 体 标准 差 o， 需 要 用 样本 标准 差 S 来 估计 总 体 


标准 差 6， 即 有 E 不 再 服从 标准 正 态 分 布 ， 而 是 服从 í 分布， 记 为 1~t(v)。vV 为 自由 
n 


度 ， 它 决定 了 分布 的 形状 。 

1. + 分布 的 概率 密度 函数 

英国 统计 学 家 Gosset 于 1908 年 以 笔名 “Student” 发 表 了 一 篇 论文 ， 提 出 了 1 分布 的 
理论 ， 因 此 上 分布 又 称 为 学 生 上 分 布 (Student t Distribution)， 其 概率 密度 函数 为 : 





(3-22) 








pr" -vH 
2 2) 2 
fG)= ud , -co«t«oo (3-23) 
wry | v 
其 中 ， 
X-u 
t= (3-24) 
S/ n 


DO 为 伽 玛 函 数 符号 ， 它 是 已 知 函 数 : TOM [BURISR ; v 表 示 自 由 度 。 如 果 以 1 为 模 坐 标 ，f (7) 
为 纵 坐 标 ， 则 可 绘制 出 1 分 布 曲线 ， 如 图 3-6 所 示 。 





-5.0 -2.0 t 1.0 4.0 


图 3-6 不 同 自由 度 的 上 分 布 曲线 
2. 1 分 布 的 特点 
由 图 3-6 可 见 ， 对 于 不 同 的 自由 度 ， 分 布 有 不 同 的 曲线 。 可 总 结 1 分 布 的 特点 如 下 。 
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(1) t 分 布 为 单 峰 分 布 ， 曲 线 在 上 一 0 处 最 高 ， 并 以 二 0 为 中 心 左右 对 称 。 计 算 所 得 + 
值 可 以 是 正 数 ， 也 可 以 是 负数 。 

(2) 与 z 分 布 〈 即 标准 正 态 分 布 ) 相 比 ， 曲 线 最 高 处 较 矮 ， 两 尾部 扫 得 较 高 。 

(3) ! 分 布 曲线 是 一 能 曲线 ， 其 形状 变化 与 自由 度 的 大 小 有 关 ， 自 由 度 一 旦 确定 ， 则 :; 
分 布 的 形状 也 就 确定 了 。 自 由 度 越 小 ， 则 上 值 越 分 散 ， 曲 线 越 低 平 ， 随 着 自由 度 的 增 大 ，#t 
分 布 曲线 逐渐 接近 z 分 布 曲线 ，i 分 布 的 极限 分 布 为 标准 正 态 分 布 〈 即 z 分 布 )。 

(4)t 分 布 曲线 下 面积 有 一 定 的 规律 性 , 例如 ,自由 度 y=9 时 , 1 < 71.833 38r 2 1.833 的 
〈 单 侧 ) 曲线 下 面积 为 0.05( 见 图 3-7 (a)); 1< 2262 H r> 2.262 的 〈 双 侧 ) 曲线 下 面积 


也 为 0.05〈 见 图 3-7 (b))。 


0.05 0.025 0.025 ` 
0 1.833 -2.262 0 2.262 
(a) (b) 
图 3-7 自由 度 y=9 时 单 侧 Ca) 与 双 侧 Cb) :分 布 曲 线 下 面积 为 0.05 
令 P= PIHEtpay}， 它 是 样本 统计 量 :的 绝对 值 大 于 等 于 上 界 值 的 曲线 下 面积 。 当 己 
已 知 时 ， 通 过 查 表 ， 可 以 得 到 不 同 自 由 度 v 的 单 侧 或 双 侧 PP 值 对 应 的 1 界 值 为 fpy 或 tpav : 
或 者 通过 自由 度 v 和 计算 所 得 统计 量 1 值 ， 查 表 得 到 近似 P 值 。 


3.22 分布 


前 面 已 经 提 到 ， 考 随机 变量 X RAES S Ne, Pp MEH ¿= = 得 到 的 变 


E Z 就 服从 标准 正 态 分 布 。 此 时 有 Z~N(0,1)， 忆 的 分 布 服从 自由 度 为 1 Az 分 布 
(Chi-square Distribution), i393? — XX (1). 

若 从 标准 正 态 总 体 中 ， 随 机 抽取 Vv 个 独立 样本 ZZ.. Z i - ZZ. W 
fy HAB IBEX VEO, 4i, indu Y). 

1. Y? 25 BORSE EET RS 34 

好 分 布 的 概率 密度 函数 为 : 


fO = 一 一 一 一 (3-25) 
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AFP, DO 为 伽 玛 函数 符号 ， 是 已 知 函 数 ， vy 表示 自由 度 ;: e 为 自然 对 数 的 指数 。 如 果 以 
X AS, fO D) 为 纵 坐 标 ， 可 绘制 出 好 分 布 曲线 ， 如 图 3-8 所 示 。 


foe» 
0.3 





图 3-8 不 同 自 由 度 的 六 分 布 曲 线 


2. .六 分 布 的 特征 

米 分 布 是 连续 型 的 随机 变量 分 布 ， 自 由 度 不 同 则 好 分布 的 曲线 形状 有 所 不 同 ， 所 以 妨 
分 布 曲线 是 一 簇 曲线 ， 其 形状 变化 与 自由 度 的 大 小 有 关 ， 自 由 度 一 旦 确定 ， 则 ?分 布 的 形 
状 也 就 确定 了 。 随 着 自由 度 的 增 大 ， 分 布 曲线 逐渐 左右 对 称 ， 当 自由 度 足 够 大 时 ， 巡 分布 
曲线 接近 正 态 分 布 曲 线 ( 见 图 3-8). 

x 分 布 曲线 下 面积 有 一 定 的 规律 性 ， 例 如 ， 自 由 度 六 1 PF, 23.84 的 曲线 下 面积 为 
0.05; 自由 度 w=3 时 ， 曲 线 下 面积 为 0.05 情况 下 的 娄 界 值 为 7.81， 见 图 3-8. 

令 P 为 一 个 概率 值 ， 它 是 样本 统计 量 x? 值 大 于 等 于 x? 界 值 的 曲线 下 面积 ， 即 
P-P(* 之 XPvy}。 通 过 查 有 关 统 计 学 表 ， 可 以 得 到 不 同 自由 度 v 及 不 向 P 值 对 应 的 六 界 值 
iv: 或 者 通过 计算 所 得 统计 量 炉 值 与 自由 度 查 表 得 到 相应 的 近似 尸 值 。 迷 值 一 般 只 有 正 
值 ， 不 可 能 为 负数 。 


2 2 
对 于 正 态 总 体 ， 若 总 体 均 数 h 未 知 ， 则 由 数理 统计 学 知识 可 知 ， 包 -2 Lr 服从 
自由 度 为 y 的 六 分 布 。 
3.23 Ff 


4 x! (v) fll z2 (v2) 分 别 为 服从 自由 度 为 vi 和 的 卡 方 分 布 ， Ws p - L X dream. 服从 


分 子 自由 度 为 w 和 分 母 自由 度 为 y, RU FA BH EFL) BO id e 
家 R.A. Fisher (1890—1962) 首次 提出 ， 为 了 纪念 他 ， 因 此 称 这 种 分 布 为 下 分 布 。 


2 
对 于 样本 方差 8 和 33 ， 以 及 相应 自由 度 分 别 为 w Riva 的 正 态 总 体 ， 因 为 有 ~ 
Oi 
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eE h 
2 2 2 2 
S m 
x^v 293 ~ pw), MAR F = SL. = SU piv). ERI. oio? 
0 z3 Si /oi 
一 一 /va 
02 


2 
HH. F x 服从 F(vi.v2) 分 布 。 
2 


1，F 记 分布 的 概率 密度 函数 
五 分 布 的 概率 密度 函数 为 : 


Vi 
Vi tV Pu 
r 1 2 py p 2 


f(F)= 2 "YU (3-26) 


rS rs er evo 2 
AF, FERAE, 2084 EJJ sk Jy3e J ikiB; vi. va 分 别 为 值 的 分 子 与 分 母 自 


由 度 ， 这 是 下 分 布 的 两 个 参数 ， 由 这 两 个 自由 度 可 决定 下 分 布 的 图 形 形 状 ， 因 此 分 布 
可 用 F(vi.v;) 表示。 以 天 为 横 轴 ， FE) 为 纵 轴 ， 可 绘制 得 到 天 分 布 的 图 形 ， 如 图 3-9 所 


不 。 





0.8 r ` 
KP : 


o6 | y 





F(5,5) 
F(10,10) 
04 上 











图 3-9 不 同 分 子 与 分 母 自 由 度 的 下 分 布 曲线 


2， 斑 分 布 的 特征 


下 分 布 曲线 也 是 一 簇 曲 线 ， 随 着 自由 度 的 增 大 ， 分 布 曲线 逐渐 左右 对 称 ， 当 自由 度 足 
够 大 时 ， 互 分 布 曲线 接近 于 正 态 分 布 曲线 。 

F 分 布 曲 线 下 面积 有 一 定 的 规律 性 ， 例 如 ， 分 子 自由 度 w=1， 分 母 自由 度 w=5 Bf, 
F 2 6.61 BJ iz FEIRA 0.05; 分 子 自由 度 w=$， 分 母 自由 度 w=5 Bf, F > 5.05 的 曲线 下 
面积 为 0.05; 分 子 自 由 度 w=10, 分 母 自 由 度 w=10 时 , F > 2.97 的 曲线 下 面积 也 为 0.05( 见 
蒋 知 俭 主编 的 《医学 统计 学 》， 研 究 生 和 七 年 制 用 ，1997 年 版 ，P579 的 附 表 27 或 P582 
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的 附 表 30， 徐 天 和 主编 的 《中 国医 学 统计 百科 全 书 一 一 医学 研究 统计 设计 分 册 》，P176 附 
表 17 或 P180 附 表 19)。 

S P 为 一 个 概率 值 ， 它 是 样本 统计 量 F 值 大 于 等 于 F 界 值 的 曲线 下 面积 ， 即 
P=P{F 2 Ky,w,}。 通 过 查 表 , 可 以 得 到 不 同 分 子 及 分 母 自 由 度 Vi 与 w, URA E P ff (0.01 
或 0.05) 对 应 的 下 界 值 Fp.ow,v,); 或 者 通过 计算 所 得 统计 量 F 值 与 分 子 及 分 母 自 由 度 得 到 
相应 的 近似 P 值 。F 值 一 般 只 有 正 值 ， 不 可 能 为 负数 。 


3.3 正 态 性 检验 


有 些 统计 方法 只 适用 于 正 态 分 布 或 近似 正 态 分 布 资料 ， 如 用 均 数 和 标准 差 描述 资料 的 
分 布 特征 ， 用 正 态 分 布 法 确定 正常 值 范围 等 。 因 此 ， 在 应 用 这 些 方 法 前 ， 通 常 要 判定 资料 
是 否 服从 正 态 分 布 ， 或 者 样本 是 否 来 自 正 态 总 体 ， 这 就 是 正 态 性 检验 CTest of Normality). 

正 态 分 布 的 特征 ， 归 纳 起 来 有 两 点 ; 一 是 对 称 性 〈Symmetry)， 二 是 峰 度 (Kurtosis). 
分 布 不 对 称 的 就 是 偏 态 〈Skewness)， 有 正 偏 态 和 负 偏 态 ， 峰 度 也 分 为 两 种 ， 一 种 是 尖 峭 
峰 〈Leptokurtosis )， 另 一 种 是 益 峰 〈Platykurtosis )。 

正 态 性 检验 分 为 两 大 类 , 一 是 图 示 法 , 主要 采用 概率 图 (Probability-probability Plot, P-P 
图 ) 和 分 位 数 图 (Quantile-quantile Plot, Q-Q 图 )。 其 中 ，P-P 图 是 以 样本 的 累计 频率 作为 
横 坐 标 ， 以 按照 正 态 分 布 计算 的 相应 累计 概率 作为 纵 坐 标 ， 把 样本 值 表现 为 直角 坐标 系 中 
的 散 点 。 如 果 资 料 服从 正 态 分 布 ， 则 样本 点 应 该 围绕 第 一 象限 的 对 角 线 分 布 。Q-Q 图 则 是 
以 样本 的 分 位 数 〈P) 作为 横 坐 标 ， 以 按照 正 态 分 布 计算 的 相应 分 位 数 作为 纵 坐 标 ， 把 样 
本 表现 为 直角 坐标 系 的 散 点 。 如 果 资 料 服从 正 态 分 布 ， 则 样本 点 应 该 呈 一 条 围绕 第 一 象限 
对 角 线 的 直线 。 这 两 种 方法 中 ， 以 Q-Q 图 法 的 效率 较 高 。 

二 是 计算 法 。 计算 法 又 分 为 两 种 ,一 种 是 对 偏 度 和 峰 度 各 用 一 个 指标 来 评定 ， 如 算法 ; 
男 一 种 是 对 偏 度 和 峰 度 用 一 个 综合 指标 来 评定 ， 如 W 检验。 

下 面 我 们 通过 实例 来 看 看 在 SPSS 13 中 如 何 进行 正 态 性 检验 。 


3.3.4. P-P 图 法 


某 地 40 名 30—49 岁 健 康 男子 血清 总 胆固醇 (mmol) 的 测定 结果 如 
X 3-1 所 示 《〈 见 配 书 光盘 中 的 data3-3.xls 或 data3-3.sav 文件 )， 试 对 该 资料 进行 正 态 性 检 
验 。 


表 3-1 某 地 40 名 30—49 岁 健康 男子 血清 总 胆固醇 《mmoy) 的 测定 结果 


4.76 3.36 6.13 3.94 3.55 4.22 4.30 4.70 5.68 4.55 
4.37 5.38 6.29 5.20 7.21 5.53 3.92 5.20 5.17 5.76 
4.78 5.12 5.19 5.09 4.69 4.73 3.50 4.37 4.88 6.24 
5.31 4.49 4.62 3.60 4.44 4.42 4.03 5.84 4.08 3.34 
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运用 P-P 图 法 进行 正 态 性 检验 的 操作 过 程 如 下 。 


-Graphs 一 在 菜单 栏 上 单 击 Graphs 

“PP... 一 在 下 拉 菜 单 上 选取 P-P... 

听 血 清 总 胆固醇 [x] 一 在 左 侧 的 变量 列表 中 选择 变量 

ALJ ciiin, ARIE “ik IUNII Variable 
的 变量 列表 中 

BOK = 使 用 弹出 对 话 框 中 的 默认 选项 ， 直 接 单 击 OK ¿n 


对 话 框 中 的 各 个 选项 如 图 3-10 所 示 。 


Transform Pr Estimation Formula 

T^ Natural log transform || G Bloms C Rankit C Tukey's | 
[^ Standardize values || C Yan der Waerden's 

厂 Difference: | - Rank Assigned to Ties — — 
V" Semonsto difuerc: T | Mem C Hih C Low 
Current Periodicity. None C Break ties arbitrarily 





图 3-10 P-P 图 分 析 对 话 框 


对 话 框 中 各 个 选项 的 含义 如 下 。 


Test Distribution 是 检验 分 布 类 型 ， 默 认 的 选择 项 是 正 态 分 布 (Normal)， 在 下 拉 列 
表 中 可 供 选择 的 分 布 还 有 : pB 分 布 (Beta). X? 分 布 (Chi-square ) 、 指 数 分 布 
(Exponential), T 4i (Gamma). 、 半 正 态 分 布 〈Half-Normal)、 拉 普 拉 斯 分 布 
(Laplace). Logistic 分 布 (Logistic)、 对 数 正 态 分 布 (Lognormal)、 帕 累 托 分 布 
(Pareto). t 分 布 (Student t), AKA (Weibull) 和 均匀 分 布 (Uniform)。 当 
选择 检验 的 分 布 为 Chi-square 和 Student t 时 ， 下 方 “df” 后 的 填写 框 变 为 可 填 ， 用 
户 需要 在 后 面 填 入 所 检验 的 迷 分 布 的 自由 度 。 

Distribution Parameters 是 定义 所 检验 的 分 布 参数 ， 默 认 选 择 “Estimate from data”, 
即 根据 样本 数据 估计 总 体 参数 。 如 果 去 除 “Estimate from data” MRKI FZ 
分 布 和 + 分布 该 项 不 可 选 )， 这 时 下 方 的 两 个 填写 框 变 为 可 填 ， 用 户 需要 在 框 内 填 入 
所 检验 分 布 的 总 体 参数 的 具体 值 ， 总 体 参数 的 名 称 和 数量 根据 具体 的 分 布 而 改变 。 
Transform 是 对 原始 数据 进行 一 定 的 变换 后 再 进行 相应 的 分 布 检 验 ， 默 认 是 不 进行 
任何 变换 。 可 供 选择 的 变换 有 自然 对 数 变换 (Natural log transform)、 变 换 为 均 数 是 
0 和 标准 差 是 1 的 标准 化 值 (Standardized values)、 差 分 变换 (Difference) 和 季节 
差分 变换 (Seasonally difference )。 当 选择 Difference 和 /或 Seasonally difference 时 ， 
还 必须 在 后 面 填 入 差分 变换 的 差 值 。Seasonally difference 仅 当 数据 为 时 间 序 列 数据 
时 可 选 〈 可 通过 Data 菜单 中 的 Define dates 选项 定义 )。 
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e Proportion Estimation Formula 是 选择 计算 比例 的 计算 公式 ， 每 次 只 能 选择 一 种 。 可 


供 选 择 的 公式 有 : 

> Blom's 公式 : (r-3/8)/(n+1/4) (3-27) 
> Rankit XX: (r-1/2)/n (3-28) 
> Tukey's 公式 : (r-1/3)(n+1/3) (3-29) 
> Vander Waerden's 公式 : r/(n+1) (3-30) 


上 面 的 4 个 公式 中 ，r 为 数据 排序 后 从 1 30 n HRR, n 为 样本 中 观测 的 个 数 ， 即 样 
本 含量 。 默 认 的 是 Bloms 公式 。 
e Rank Assigned to Ties 是 指定 为 数值 相同 的 那些 观测 分 配 秩 次 的 方法 , 每 次 只 能 选择 
一 种 方法 。 可 供 选 择 的 方法 有 : 都 用 平均 秩 次 (Mean)、 都 用 最 高 秩 次 (High), 
都 用 最 低 秩 次 (Low) 和 对 相同 值 在 秩 次 范围 内 任意 分 配 。 
我 们 现在 看 看 SPSS 13 的 输出 结果 ， 如 图 3-11 所 示 。 


Normal P-P Plot of 血清 总 胆固醇 


Detrended Normal P-P Plot of 血清 总 胆固醇 
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(a) IEA P-P 图 (b) 去 势 的 正 态 P-P 图 


图 3-11 P-P 图 分 析 结 果 


从 图 3-1 (a) 中 可 以 看 出 ， 数 据点 基本 分 布 在 对 角 线 上 ， 表 明 期 望 累 积 概率 与 实际 
累积 频率 十 分 吻合 ， 说 明 资 料 服从 正 态 分 布 。 为 了 进一步 考察 实际 累积 频率 与 期 望 累 积 概 
率 间 的 差别 ， 从 去 势 后 的 正 态 PP 图 ( 见 图 3-11 (b))， 即 累积 概率 的 残 差 图 可 以 看 出 ， 
残 差 基本 在 Y=0 上 下 均匀 分 布 , 绝 大 多 数 残 差 的 绝对 值 都 在 0.04 以 内 , 说 明 数 据 的 正 态 性 


还 是 很 好 的 。 
3.2 Q-Q 图 法 

运用 Q-Q 图 法 进行 正 态 性 检验 的 操作 过 程 如 下 。 
2 | 


概率 分 布 与 正 态 性 检验 PREA 


"B Graphs ` s 3% EE ds Graphs 

AQ-Q.… 一 在 下 拉 菜 单 上 选取 Q-Q... 

da yi E l E] BE [x] —AELBÜTXIXARTARTE 

加 ,| 呈 单 击 按 钮 ,将 变量 “血清 总 胆固醇 [x]” 选 入 到 Variables 
的 变量 列表 中 

DOK 宇 使 用 弹出 对 话 框 中 的 默认 选项 ， 直 接 单 击 OK 按钮 


对 话 框 中 的 各 个 选项 如 图 3-10 所 示 。Q-Q 图 分 析 结 果 如 图 3-12 所 示 。 


Normal Q-Q Plot of 血清 总 胆固醇 Detrended Normal Q-Q Plot of 血清 总 胆固醇 








o 


Expected Cum Prob 
Deviation from Normal 











T T y T E 
3 4 5 6 


Observed Value Observed Value 


(a) EX Q-Q 图 (b) 去 势 的 正 态 Q-Q 图 
3-12. Q-Q 图 分 析 结果 


从 图 3-12 (a) 中 可 以 看 出 ，Q-Q 图 的 显示 结果 与 P-P 图 基本 一 致 ， 只 不 过 Q-Q 图 的 
数据 点 的 横 、 纵 坐标 分 别 是 实际 的 分 位 数 和 被 检验 分 布 的 理论 分 位 数 。 数 据点 紧 紧 围绕 着 
对 角 线 分 布 ， 说 明 资料 服从 正 态 分 布 。 从 去 势 后 的 正 态 Q-Q 图 ( 见 图 3-12 (b))， 即 分 位 
数 的 残 差 图 可 以 看 出 ， 残 差 基 本 在 7=0 上 下 均匀 分 布 ， 绝 大 多 数 残 差 的 绝对 值 都 在 0.6 以 
内 ， 说 明 数 据 的 正 态 性 很 好 。 

Q-Q 图 的 制作 还 可 以 通过 以 下 操作 完成 。 


Analyze ”号 在 菜单 上 单 击 Analyze 

Descriptive Statistics 号 在 下 拉 菜 单 上 选取 Descriptive Statistics 
“Explore... = # F4 3 E Explore... 

人 血清 总 胆固醇 [x] 中 在 左 侧 的 变量 列表 中 选择 变量 

L] 一 单 击 按钮 ， 将 变量 “血清 总 胆固醇 [x]” 选 


入 到 Dependent List 的 变量 列表 中 
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3.88. 直方 图 、 箱 式 图 与 茎 叶 图 
在 图 式 法 中 , 除了 用 P-P 图 与 Q-Q 图 直接 对 数据 的 正 态 性 进行 检验 外 , 我 们 还 可 以 通 
过 直方 图 、 箱 式 图 与 茎 叶 图 对 资料 的 分 布 特征 进行 定性 分 析 。 


1. 直方 图 
仍然 使 用 例 3-1 中 的 资料 ， 制 作 直 方 图 的 操作 过 程 如 下 。 





做 出 的 图 形 如 图 3-13 所 示 。 


Frequency 





Mean = 4.7995 
Std.Dev. = 0.8705: 
N=40 
3.00 4.00 5.00 6.00 7.00 8.00 
血清 总 胆固醇 
图 3-13 直方 图 


114 | 


分 布 与 正 态 性 


从 图 3-13 可 以 看 出 ,资料 基本 呈现 中 间 高 、 两 边 低 的 对 称 的 钟 形 分 布 ， 与 正 态 分 布 十 
分 接近 。 图 形 右 侧 列 出 了 资料 的 基本 描述 性 统计 量 : 均 数 (Mean)、 标 准 差 (Std. Dev.) 
和 样本 含量 (N). 

制作 直方 图 的 对 话 框 如 图 3-14 所 示 。 


(x) f eaxsum ros 


T^ Display normal curve 
r Panel by — m Bes | 
D [ev | ne | 









[^ Nest variables (no empty rows) 


| 
x Come: - | 
mex | 
| | 
1 


T Nest variables (no empty columns) 





图 3-14 制作 直方 图 的 对 话 杠 


对 话 框 中 各 个 选项 的 含义 如 下 。 

° Display normal curve: 在 直方 图 上 显示 正 态 性 曲线 。 

° Panel by: 选择 对 资料 制作 分 组 直方 图 的 行 变 量 和 列 变 量 。Rows 是 按 行 制 作 直 方 图 
的 分 组 变量 ，Columns 是 按 列 制作 直方 图 的 分 组 变量 。 在 这 两 个 选择 框 中 ， 都 可 以 
选择 多 个 变量 。 如 图 3-15 所 示 是 按 所 在 城市 City) 作为 行 变量 , 按 地 理 位 置 (area) 
作为 列 变量 制作 的 分 组 直方 图 。 
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血清 总 胆固醇 血清 总 胆固醇 
图 3-15 分 组 直方 图 
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e “Nest variables (no empty rows)" / “Nest variables (no empty columns)” 其 作用 是 当 
Rows 或 Columns 下 的 变量 列表 中 有 两 个 以 上 的 变量 时 ， 如 果 不 选择 该 项 ， 则 制作 
的 直方 图 分 组 个 数 是 这 些 变量 取 值 的 所 有 可 能 组 合 数 ,其 中 可 能 会 有 一 些 空 的 直方 
(如 图 3-16 (a) 所 示 ); 如 果 选 择 了 该 项 ， 则 制作 的 直方 图 只 是 按照 变量 顺序 从 
上 到 下 堪 套 分 组 ， 不 会 出 现 空 的 直方 图 的 情形 〈 如 图 3-16 (b) 所 示 )。 





MoT 
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Frequency Frequency Frequency Frequency 











5.00 6.00 
血清 总 胆固醇 
(a) economic RKE F city 中 
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rey3ueys 
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5.00 6.00 1.00 8.00 


血清 总 胆固醇 


(b) economic HE T city 中 
3-16 ”分 组 直方 图 


e Template: 当选 择 Use chart specifications from 时 ， 用 户 可 以 自己 选择 其 他 的 模板 文 
件 制作 直方 图 。 关 于 图 形 的 编辑 与 修改 ， 可 参见 本 书 第 11 章 。 
另外 ， 制 作 直方 图 还 可 以 通过 以 下 操作 实现 。 
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人 Analyze 
Descriptive Statistics 
"OFrequencies... 

个 血清 总 胆固醇 [x] 
a 


D e. | 
Histograms 
Continue 
BOK 


Analyze 
Descriptive Statistics 
Explore... 

78. 7f é BE. E] [xc] 
aLI 


MB Plots... | 
Histograms 
Continue 
BOK 


2. 箱 式 图 


概率 分 布 与 正 态 性 检验 PREA 


号 在 菜单 栏 上 单 击 Analyze 

号 在 下 拉 莱 单 上 选取 Descriptive Statistics 

一 在 下 拉 菜 单 上 选取 Frequencies... 

号 在 左 侧 的 变量 列表 中 选择 变量 

号 单 击 按 钮 ， 将 变量 “血清 总 胆固醇 [x]” 选 
入 到 Variable(s) 的 变量 列表 中 

一 单 击 Charts.., 按 钮 ， 进 入 图 表 选 项 

一 选择 直方 图 

一 返回 上 级 对 话 框 

c XR 


= # X3 k 3: Analyze 

= # TF 4: £ £ L i Descriptive Statistics 

号 在 下 拉 菜 单 上 选取 Explore... 

一 在 左 侧 的 变量 列表 中 选择 变量 

定单 击 按钮 ， 将 变量 “血清 总 胆固醇 [K]” 选 入 到 
Dependent List 的 变量 列表 中 

= 3k Plots... 按 钮 ， 进 入 图 表 选 项 

一 选择 直方 图 

ciÁw EZ ETE 

一 完成 


箱 式 图 是 另外 一 种 表现 资料 分 布 特征 的 图 形 ， 制 作 箱 式 图 的 操作 步骤 如 下 。 


Graphs 
Boxplot... 


afe 


= # % 22 k 3: Graphs 
一 在 下 拉 菜 单 上 选取 Boxplot... 
=£ i Simple 按钮 ， 设 置 图 形 类 型 为 基本 图 形 


Summaries of separate variables <£ “Data in Chart Are” 选 择 框 内 选择 分 别 对 各 





介 血 清 总 胆 国 醇 [x] 
25] 


人 OK 


个 变量 进行 汇总 

SË Define 按钮 ， 进 入 图 形 设置 对 话 框 

号 在 左 侧 的 变量 列表 中 选择 变量 

号 单 击 按钮 ,将 变量 “血清 总 胆固醇 [x]” 选 入 到 
Boxes Represent 的 变量 列表 中 

宇 使 用 弹出 对 话 框 中 的 默认 选项 ， 直 接 单 击 OK 
按钮 


做 出 的 图 形 如 图 3-17 所 示 。 在 图 形 中 , 方 框 的 上 缘 是 上 四 分 位 数 、 下 缘 是 下 四 分 位 数 ， 
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方 框 的 高 度 即 为 四 分 位 数 间距 ， 中 间 的 黑 粗 线 是 中 位 数 。 箱 子 的 上 、 下 两 条 细 线 间 的 距离 
为 1.5 倍 的 四 分 位 数 间距 ， 在 距 方 框 上 缘 或 下 缘 1.5 倍 至 3 倍 四 分 位 数 间距 间 的 值 为 离 群 
值 COutliers)， 在 图 中 用 “o” 表 示 ; 超出 方 框 上 缘 或 下 缘 3 倍 四 分 位 数 间距 的 值 为 极 值 
(Extreme Values)， 在 图 中 用 “*” 表 示 。 在 本 例 中 ， 只 有 一 个 离 群 值 ， 图 中 “o” 右 上 方 的 
数字 是 该 点 在 数据 集中 的 观测 号 。 

从 图 3-17 我 们 可 以 看 出 ， 中 位 数 基 本 处 于 方 框 与 上 、 下 两 条 线 的 中 间 位 置 只 有 一 个 
离 群 值 ， 表 明 数 据 呈 对 称 分 布 。 


6.004 








3.00-4 








血清 总 胆固醇 


K 3-17 48x Ed 
此 外 ， 箱 式 图 还 可 以 通过 以 下 操作 完成 。 
Analyze : e 一 在 菜单 上 单 击 Analyze 
Descriptive Statistics ~ 一 在 下 拉 菜单 上 选取 Descriptive Statistics 
. “Explore... : 一 在 下 拉 菜 单 上 选取 Explore... 
Bad ERIS] i 一 在 左 侧 的 变量 列表 中 选择 变量 
J E 一 单 击 按钮 ， 将 变量 “血清 总 胆固醇 区 ]” 选 入 到 
. Dependent List 的 变量 列表 中 
-OK CIT 
3. HtA 


在 上 面 应 用 Explore 过 程 进行 资料 的 探索 性 分 析 时 ， 除 了 做 出 了 箱 式 图 外 ， 还 给 出 了 
如 图 3-18 所 示 的 结果 。 

图 3-18 即 为 茎 叶 图 ， 它 类 似 直 方 图 , 但 又 与 直方 图 不 同 。 它 的 思路 是 将 数据 按 基本 不 
变 或 变化 不 大 的 那 一 位 的 数值 作为 一 个 主 杆 ( 茎 )， 将 变化 大 的 位 的 数值 作为 分 枝 
列 在 主 杆 的 后 面 ， 这 样 就 可 以 清楚 地 看 到 每 个 主 杆 后 面 有 几 个 数 ， 每 个 数 具 体 是 多 少 。 茎 
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概率 分 布 与 正 态 性 检验 EREA 


叶 图 有 三 列 数 ， 左 边 一 列 是 频数 ， 它 是 每 个 主 杆 上 的 叶子 数 ， 中 间 一 列表 示 主 杆 ， 也 就 是 
变化 不 大 的 位 数 的 值 ; 右边 一 列 是 数组 中 的 变化 位 ， 它 将 主 杆 后 面 一 位 变化 的 数值 一 一 列 
出 来 ， 像 一 条 枝 上 抽出 的 叶子 一 样 ， 所 以 人 们 形象 地 叫 它 茎 叶 图 。 可 以 把 茎 叶 图 看 作 是 用 
数字 组 成 的 直方 图 ， 但 比 直方 图 制作 方便 ， 所 以 也 常常 用 它 来 表现 资料 的 分 布 情况 。 


血清 总 胆固醇 Stem-and-Leaf Plot 


Frequency Stem & Leaf 


2. 00 die og 
5. 00 3. 55699 
9. 00 4. 2002333444 
8. 00 4. 56677778 
8. 00 5. 01112233 
4. 00 5. 5678 
3. 00 8 . 122 
1.00 Extremes (>=7. 2) 
Stem width: 1.00 
Each leaf: 1 case(s) 


K 3-18 ” 茎 叶 图 
从 图 3-18 可 以 看 出 ， 这 组 资料 的 分 布 与 正 态 分 布 十 分 接近 。 


3.3.4 ”计算 法 


1. 偏 度 系数 与 峰 度 系数 的 计算 

我 们 知道 ， 偏 度 系 数 与 峰 度 系数 是 了 解 资 料 正 态 性 的 指标 ， 两 者 越 接 近 0， 资 料 就 越 接 
近 正 态 分 布 。 在 SPSS 中 , 很 多 过 程 都 可 以 完成 偏 度 系 数 和 峰 度 系数 的 计算 , 如 通过 Analyze 
中 的 OLAP Cubes, Case Summaries, Report Summaries in Columns, Report Summaries in Rows, 
Descriptive, Explore, Frequencies 和 Means 等 功能 都 可 以 完成 。 用 Descriptive 功能 计算 偏 
度 系 数 与 峰 度 系数 的 操作 步骤 如 下 。 


Analyze =£ £ 42 kE 3: Analyze 

Descriptive Statistics 一 在 下 拉 菜 单 上 选取 Descriptive Statistics 

“ODescriptives... 号 在 下 拉 菜 单 上 选取 Descriptives... 

人 血清 总 胆固醇 区 ] 一 在 左 侧 的 变量 列表 中 选择 变量 

ALJ 一 单 击 按钮 ， 将 变量 “血清 总 胆固醇 [x]” 选 入 到 
Variable(s) 的 变量 列表 中 

人 Di. | 全 单 击 Options... 按 钮 ， 进 入 图 表 选 项 

Kurtosis 一 选择 Distribution 选择 框 内 的 Kurtosis 

"BSkewness cif Distribution 选择 框 内 的 Skewness 

-Continue ciÁw] EA EIE 

-OK = 3 X. 
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最 后 的 显示 结果 如 结果 3-1 所 示 。 


Descriptive Stotistics 
Fm Momm | Mean | Sd |e 
Statistic | Statistic | Statistic | Statistic | Statistic 


x 40 3.34 7.21 4.7995 .87050 476 .374 275 33 
Valid N (listwise) 40 


结果 3-1 Descriptive 过 程 中 显示 偏 度 系 数 和 峰 度 系数 的 结果 


结果 3-1 中 最 后 两 列 是 偏 度 系数 和 峰 度 系数 的 点 估计 值 和 各 自 的 标准 误 ， 大 致 可 以 看 
出 ， 二 者 的 95% 置 信 区 间 〈 统 计量 +1.96 标准 误 ) 都 包括 0， 所 以 可 以 初步 判定 资料 服从 
正 态 分 布 。 

2. Kolmogorov-Smirnov 检验 与 Shapiro-Wilk 检验 

Kolmogorov-Smirnov 检验 是 一 种 非 参数 检验 方法 ， 可 以 对 单 样本 的 拟 合 优 度 进 行 检 
验 ， 推 断 样本 是 否 来 自 正 态 分 布 总 体 、 均 匀 分 布 总 体 或 Poisson 分 布 总 体 等 ， 其 特点 是 速 
度 快 ， 便 于 计算 机 实现 。 

Shapiro-Wilk 检验 也 简称 为 W 检验 , 是 S. S. Shapiro 5j M. B. Wilk 于 1933 年 提出 的 用 
顺序 统计 量 W 来 检验 分 布 的 正 态 性 的 方法 , 该 方法 适用 于 样本 量 在 3 一 50 之 间 的 数据 。 该 
检验 对 研究 的 对 象 总 体 ， 首 先 提出 假设 ， 认 为 总 体 服从 正 态 分 布 ， 再 将 样本 量 为 n 的 样本 
按 大 小 顺序 排列 编 秩 ， 然 后 由 确定 的 显著 性 水 平 g， 以 及 样本 量 为 n 时 所 对 应 的 系数 @， 
根据 特定 公式 计算 出 检验 统计 量 W。 最 后 查 特 定 的 正 态 性 W 检验 临界 值 表 ， 比 较 它 们 的 
大 小 ， 满 足 条 件 则 接受 假设 ， 认 为 总 体 服从 正 态 分 布 ; 否则 拒绝 假设 ， 认 为 总 体 不 服从 正 

在 SPSS 13 中 运用 Explore 过 程 对 资料 的 正 态 性 进行 Kolmogorov-Smirnov 检验 与 
Shapiro-Wilk 检验 的 操作 步骤 如 下 。 














Analyze 一 在 菜单 栏 上 单 击 Analyze 

-Descriptive Statistics 一 在 下 拉 菜 单 上 选取 Descriptive Statistics 

“Explore... x 一 在 下 拉 菜 单 上 选取 Explore... 

他 血清 总 胆固醇 [x] 全 在 左 侧 的 变量 列表 中 选择 变量 

aL] 一 单 击 按钮 ， 将 变 “ 量 血清 总 胆固醇 [x]” 选 入 到 
 DependentList 的 变量 列表 中 — 

m m | 一 单 击 Plots... 按 钮 ， 进 入 图 表 选 项 

Normality plots with tests 号 选择 进行 正 态 性 检验 并 做 图 

Continue =iÉ E] EA EISE 

BOK PAR 


输出 的 结果 中 有 一 部 分 如 结果 3-2 所 示 ， 即 正 态 性 检验 的 结果 。 
从 结果 3-2 中 可 以 看 出 ,无论 是 Kolmogorov-Smirnov 检验 还 是 Shapiro-Wilk 检验 ， 其 
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检验 统计 量 所 对 应 的 尸 值 都 大 于 0.05， 表 明 资 料 服从 正 态 分 布 。 


Tests of Normality 


8 Kolmogorov-Smirnov? 
Deua O S-IEMEEI 4 2 ET 
L mq ac I l 2 wh E 


*. This is a lower bound of the true significance. 












a. Lilliefors Significance Correction 


结果 3-2 Explore 过 程 中 显示 的 正 态 性 检验 的 结果 


此 外 ， 还 可 以 通过 非 参 数 检验 中 的 单 样本 的 K-S 过 程 ， 对 资料 的 正 态 性 进行 
Kolmogorov-Smirnov 检验 ， 具 体操 作 步 又 如 下 。 


Analyze 一 在 菜单 栏 上 单 击 Analyze 

Nonparametric Tests 宇 在 下 拉 菜 单 上 选取 Nonparametric Tests 

-1-Sample K-S... (0 cdETdARGGÉ kikjk 1-Sample K-S... 

Dti iJ E] Bz [x] j 全 在 左 侧 的 变量 列表 中 选择 变量 

"e J 一 单 击 按钮 ， 将 变量 “血清 总 胆固醇 [X]” 选 入 到 
Test Variable List 的 变量 列表 中 


DOK 号 保持 系统 的 默认 选项 ， 单 击 OK 按钮 完成 
输出 的 结果 如 结果 3-3 所 示 ， 即 正 态 性 检验 的 结果 。 I 


One-Sample Kolmogorov-Smirnov Test 


Normal Parametersab Mean 

Std. Deviation 
Most Extreme Absolute 
Differences Positive 


Negative 


Kolmogorov-Smirnov Z 
Asymp. Sig. (2-tailed) 


a. Test distribution is Normal. 





b. Calculated from data. 
结果 3-3 ” 单 样本 的 Kolmogorov-Smirnov 检验 结果 


在 结果 3-3 H, ER a 表明 所 检验 的 分 布 是 正 态 分 布 ， 所 检验 的 总 体 参 数 是 通过 样本 
数据 估计 得 到 的 。 检 验 统 计量 Kolmogorov-Smirnov Z 值 为 0.531， 所 对 应 的 双 侧 P 值 为 
0.941， 表 明 资 料 服从 正 态 分 布 。 
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第 4 = 区 间 估 计 与 假设 检验 





统计 推断 〈Statistical Inference〉 是 采用 样本 统计 量 Cl X ,S, p, S$,)， 根 据 本 书 第 3 章 
中 所 介绍 的 抽样 分 布 特征 ， 对 相应 总 体 参数 Wu, o, m, Gp) 所 做 的 非 确定 性 的 推 估 ， 
主要 包 插 区 间 估 计 (Interval Estimation) 和 假设 检验 (Hypothesis Testing 8X Significance 
Testing) 两 种 。 本 章 将 介绍 置信 区 间 估 计 和 假设 检验 的 基本 概念 。 


4.1 均 数 的 区 间 估 计 


置信 区 间 〈Confidence Interval, C1) 是 由 样本 数据 估计 得 到 的 。100(1-o)% 可 能 包含 未 
知 总 体 参数 的 一 个 范围 值 ，100(1-Q)% 或 (1-Q) 称 为 置信 和 度 〈Confidence Level)， 常 取 95% 
(90%, 99% )。 置 信 区 间 通 常 由 两 个 数值 即 两 个 置信 限 〈Confidence Limit, CL) 表示 ， 较 小 
者 被 称 为 置信 下 限 (Lower Limit, LL)， 较 大 者 被 称 为 置信 上 限 (Upper Limit, UL). 

置信 区 间 有 两 个 要 素 : 准确 度 (Accuracy ) 与 精密 度 (Precision)。 准确 度 由 置信 和 度 (1-0) 
的 大 小 ， 即 置信 区 间 包 含 总 体 参数 的 可 能 性 大 小 来 反映 。 从 准确 度 的 角度 看 ， 置 信 度 愈 接 
EF 1 愈 好 ， 如 置信 度 99% 比 95% 好 。 精 密度 是 置信 区 间 宽 度 的 一 半 ( 即 tarzvS7， 
za/2Sp )， 意 指 置 信 区 闻 的 两 端点 值 离 样本 统计 量 ( 如 关 ,p) 的 距离 。 从 精密 度 的 角度 
看 ， 置 信 区 间 宽 度 愈 罕 愈 好 。 在 抽样 误差 确定 的 情况 下 ， 二 者 是 相互 矛盾 的 。 若 提高 了 置 
信和 度 ， 即 wo 减 小 ， 则 检验 统计 量 界 值 (如 twzv ，zayz ) 增 大 ， 置 信 区 间 宽 度 变 宽 ， 从 而 导 
致 精密 度 下 降 ， 反 之 ， 降 低 置 信和 度 ， 即 降低 准确 度 ， 可 适当 增加 置信 区 间 的 精密 度 。 为 了 
同时 兼顾 置信 区 间 的 准确 度 与 精密 度 ， 可 适当 增加 样本 含量 ， 在 置信 度 确定 的 情况 下 ， 增 
加 样本 含量 可 降低 抽样 误差 大 小 ， 从 而 缩小 置信 区 疗 范 围 ， 提 高 置信 区 间 精 密度 。 

95% 的 总 体 参 数 置信 区 间 表 示 的 实际 含义 是 ， 如 果 从 同一 总 体 中 重复 抽取 100 份 独立 
样本 ,分 别 计算 100 个 置信 区 间 , 将 可 能 有 95 个 置信 区 间 包 括 总 体 均 数 ,5 个 置信 区 间 不 
包括 总 体 均 数 。 对 于 一 次 估计 的 置信 区 间 而 言 ， 可 能 有 95% 的 置信 区 间 估 计 正 确 ， 但 仍 有 
5 多 的 置信 区 间 估 计 错 误 ， 如 图 4-1 Hp. 


_ 区 间 估 计 与 假设 检验 EHNG 


E zzi 





0 10 20 30 40 50 60 70 80 90 100 
置信 区 间 编 号 


图 4-1 从 正 态 总 体 w(5.D 中 随机 抽样 得 到 的 100 个 置信 区 间 


因为 100 个 置信 区 间 都 是 随机 样本 ， 所 以 并 非 每 一 次 得 到 的 95% 和 置信 区 间 恰 好 就 是 
95% 的 正确 率 ， 所 得 样本 正确 率 有 可 能 高 ， 也 有 可 能 低 ， 但 每 次 的 正确 率 均 围 绕 95% 左 右 
波动 。 

如 果 总 体 标准 差 o 己 知 ， 或 o 未 知 但 样本 含量 足够 大 ， 则 可 按 Z 分 布 估计 总 体 均 数 /的 
置信 区 间 ; 如 果 总 体 标准 差 o 未 知 ， 采 用 样本 标准 差 § 取代 总 体 标准 差 c， 则 应 按 分布 估 
计 总 体 均 数 /的 置信 区 间 。 


4.1.1 co 已 知 时 总 体 均 数 的 置信 区 间 
0 已 知 时 ， 总 体 均 数 4 的 双 侧 100(1-o% 置 信 区 间 为 : 


(X —zanGx,X +za/20x) (4-1) 
或 简写 为 : 
X tzopOx 
其 中 ， 义 服从 总 体 均 数 为 4 ， 总 体 标准 差 为 ox =o/Vn WESS, BU X ~ NQuo? /n): 
zo 为 标准 正 态 分 布 曲线 下 两 侧 尾部 面积 各 oy2 的 界 值 。 其 置信 区 间 可 表示 为 图 4-2 的 中 间 
部 分 。 i 












A JU Nano m Es d m 


0.1 
面积 :1000 <a)% 


#— Zang H At Zanz 


x 
图 4-2 总 体 均 数 /的 双 侧 100(1-o% 置 信 区 间 


令 o=0.05， 则 有 100(1-oJ%=95%， 总 体 均 数 / 的 双 侧 95 多 置信 区 间 为 ; 
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与 统计 分 


(X —1.9605, X 419605) 
EP, 20552196. og -o0/4n, n 为 样本 含量 。 
0 已 知 时 ， 总 体 均 数 /的 单 侧 100(1—0)90 8 fS P< [8] 29 : 
右 侧 : 
[X -zaox,00) 或 > X - ¿zeGy (4-2) a 
Zr fin): 
(-oo,X +207] 或 <X+zeGz (4-2) b 
Erb, X 服从 总 体 均 数 为 凡 ， 总 体 标准 差 为 cg —-o/ An HERS, BB X ~ N(u,o2 /n); 
za 为 标准 正 态 分 布 曲 线 下 某 一 侧 尾 部 面积 wx 的 界 值 。 置 信 区 间 [X -zwox,00) 与 
(œ, X + zcazg] 可 分 别 表 示 为 图 4-3 的 左 图 与 右 图 。 





图 4-3 总体 均 数 4 的 单 人 出 100(1-o)% 置 信 区 间 


令 o=0.05， 则 有 100(1-0)%=95%， 总 体 均 数 4 的 单 侧 95% 置 信 区 间 为 : 
[X-1.645ox,oo) 或 (—co,X 1.64505] 
其 中 ， 200571.645, Ox -o/ 4n . 


4.1.2 ”Ga 未 知 时 总 体 均 数 的 置信 区 间 


Ga 未 知 时 ， 采 用 样本 标准 差 S 替代 ， 此 时 样本 均 数 的 分 布 不 再 服从 z 分 布 ， 而 是 服从 1 

分 布 。 总 体 均 数 H 的 双 侧 100(1- 四 多 置信 区 间 的 公式 应 改变 为 ， 
(X -tanv x , X t tai2y Sg) (4-3) 
或 简写 为 : 
X X tais Sx 

Jic, X 服从 自由 度 v 2n - 108 r rfi, ERRERA Sg = S/ In» tany 为 上 + 分布 曲线 下 两 
侧 尾 部 面积 为 w/2 、 自 由 度 为 v 对 应 的 界 值 。twj2ySx 称 为 置信 区 间 的 精密 度 ， 它 等 于 置 
信 区 间 宽 度 的 一 半 ， 意 指 置信 区 间 的 两 端点 离 样本 均 数 和 有 多 远 。 

随机 抽取 某 地 200 名 成 年 男性 的 红细胞 数 均 数 为 4.994x1012/L， 标 准 差 
为 0.604x101YL， 估 计 其 抽样 误差 和 总 体 均 数 的 9$% 置 信 区 间 。 
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区 间 估 计 与 假设 检验 EEEa 


解 : 抽样 误差 大 小 即 标准 误 为 : 


Sx 


S 0.604 T 
up =—— e 0.0427L C10 JL) 
Jn | 4200 


因为 总 体 标 准 差 未 知 ， 所 以 可 以 采用 公式 (4-3) 计算 总 体 均 数 的 95% 和 置信 区 间 为 : 


4.994 + 1005/2199 x 


rB, 1605/2199 21.972. CPJ H SPSS 的 函数 “=IDF.T(0.025,199)” 获 得 ), 将 Sx —0.042714X 


AERA 95% 置 信 区 间 为 : (4.9098, 5.0782). 
下 面 利用 例 4-1 的 原始 数据 〈( 见 配 书 光盘 中 的 data4-1.xls 或 data4-l.sav) 说 明 SPSS 


处 理 方法 。 
% 操作 提示 


Analyze 
Descriptive Statistics 
Explore... 

"Ox 

aL] 


Statistics 


BOK 
输出 结果 如 结果 4-1 所 示 。 


一 在 菜单 栏 上 单 击 Analyze 

一 在 下 拉 菜 单 上 选取 Descriptive Statistics 

一 在 下 拉 菜 单 上 选取 Explore... 

一 在 左 侧 的 变量 列表 中 选择 变量 

cdd d4n, 将 变量 x 先入 到 Dependent List 的 变量 列表 中 

= Display 选择 框 内 的 Statistics 选择 项 , 定义 结果 中 只 
输出 统计 量 

号 完成 


Descriptives 


[ie Std. Error 


x Mean 


9596 Confidence Lower Bound 
Interval for Mean Upper Bound 


596 Trimmed Mean 


Median 
Variance 

Std. Deviation 
Minimum 
Maximum 
Range 


Interquartile Range 


Skewness 
Kurtosis 





结果 4-1 Descriptives 过 程 的 结果 


从 结果 4-1 中 我 们 可 以 看 到 ， 关 于 变量 x 的 基本 的 描述 性 统计 量 ， 前 三 行 分 别 是 总 体 
均 数 的 点 估计 值 4.994、 标 准 误 0.04269、 总 体 均 数 的 95 多 置信 区 间 的 下 限 值 4.9098 和 上 限 


(& 5.0782. 
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o 未 知 时 ， 总 体 均 数 1 的 单 侧 100(1-0)% 置 信 区 间 计 算 公 式 为 : 
[X -taySg,00) 或 (—oco,X +tavSz] (4-4) 
EP, tay 为 上 分 布 曲线 下 某 一 侧 尾 部 面积 为 w 、 自 由 度 为 v 对 应 的 界 值 。 


4.1.3 两 总 体 均 数 间 差 值 的 置信 区 间 


两 个 总 体 均 数 间 差 值 (jy 一) 的 双 侧 100(1-o% 置 信 区 间 计 算 公式 为 : 
(Xi - X 2) £taj2y Sx, x, (4-5) 
H 由 度 等 于 两 样本 自 由 度 之 和 ， Bp v -(m —1)+ (m —1)=ni +n -2, ta/2w 可 查 表 获 得 ， 
Sg, x, 可 由 公式 (4-6) 计算 获得 。 
Sx,-x, = Se Herd (4-6) 


ni n2 
Rm, 


sc [m- DS? +m —DS2 _ Ex? (xu m 3:33 -È X [m nos 
r (nj — D 4- (n2 —1) | m*n-2 


同样 ， 也 可 得 到 两 总 体 均 数 之 差 的 单 侧 100(1-0)% 置 信 区 间 的 计算 公式 为 : 
[Xi — X; ^ tay Sg, x,,00) E (—co, X1 — X2 +taySx,-x,] I (4-8) 
当 两 样本 的 样本 含量 均 较 大 时 (如 nl 和 ns 均 大 于 30)， 上 述 计算 置信 区 间 公 式 (4-5) 


2 2 
和 公式 (4-8) 中 的 tw/zy A tay 可 用 相应 的 zw 和 zu RS Sy z, 也 可 用 SLE 来 计算 。 
1 2 


为 了 研究 肺癌 发 病 年 龄 在 性 别 方面 的 差别 , 在 某 地 区 收集 了 同年 发 病 的 
一 批 肺癌 患者 ， 其 中 男 13 例 ， 女 12 例 。 各 患者 发 病 年 龄 如 表 4-1 所 示 〈 见 配 书 光盘 中 的 
data4-2.xls 或 data4-2.sav)， 问 该 地 区 男性 患者 和 女性 患者 发 病 年 龄 总 体 均 数 之 差 有 多 大 ? 


表 4-1 某 地 某 年 男 、 女 肺癌 患者 的 发 病 年 龄 





B æ% “a 5 6 $369 55 4 a a * 5 3 a 
2 5 52 5 49 56 5 5 d 4 3 6 7 
* 操作 提示 
Analyze 一 在 菜单 栏 上 单 击 Analyze 
Compare Means 00 SF £ 3 Lit Compare Means 
-IndependentSamples T Test... “£ T 45% 3 Tik uk st 88 t 检验 
-age 一 在 左 侧 的 变量 列表 中 选择 年 龄 变量 age 
^] 一 单 击 按钮 ， 将 变量 age 选 入 到 Test Variable(s) 的 变 
量 列 表 中 

sex 一 在 左 侧 的 变量 列表 中 选择 性 别 变量 sex 
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^e] = d din, 将 变量 sex 选 入 到 Grouping Variable 的 
变量 列表 中 

MB) Define Groups.. 所 单 击 定义 分 组 的 按钮 

481 一 在 弹出 的 Define Groups 对 话 框 内 的 Use specified 
values 的 Group 1 5603. 1, A sex 变量 取 值 
为 1 的 是 第 一 组 

®2 “Group 2 5 LA 2, 表明 sex 变量 取 值 为 2 的 是 

Y 第 二 组 

Continue 返回 上 级 对 话 框 ， 这 时 Grouping Variable 下 变量 
sex 后 括号 内 的 两 个 ? 变 成 了 1 和 2 

“OK TEA 


在 输出 结果 中 ， 包 括 两 部 分 内 容 ， 第 一 部 分 是 两 组 资料 的 描述 性 统计 量 ， 包 括 样本 含 
、 均 数 、 标 准 差 和 标准 误 ， 这 里 不 再 介绍 。 
第 二 部 分 是 对 两 组 资料 的 均 数 进行 1 检验 的 结果 ， 如 结果 4-2 所 示 。 


Independent Samples Test 


n of NN t-test for Equality of Means 
95% Confidence 
Interval of the 
Mean | Std. Error ERE 
Sig. (2-tailed)| Difference | Difference | Lower 
Equal EN 
assumed -1.142 -4.75641 | 4.16577 [13.37395 | 3.86113 
Equal variance: 
notassumed -1.150 | 22.792 -4.75641 | 4.13495 [13.31453 | 3.80171 
结果 4-2 ”独立 样本 1 检验 的 结果 


在 结果 4-2 的 表格 中 ,前 两 列 是 用 Levene's 方法 对 两 组 资料 进行 方差 齐 性 检验 的 结果 ， 
可 以 看 出 F=0.917，P=0.348，P 值 大 于 0.05， 所 以 两 组 资料 的 方差 齐 。 后 面 7 列 是 对 两 组 
资料 均 数 比较 t 检验 的 结果 ， 分 为 两 行 ， 上 面 一 行 是 对 应 的 方差 齐 的 结果 ， 下 面 一 行 是 对 
应 的 方差 不 齐 的 结果 ， 在 第 5 章 中 我 们 将 详细 解释 ， 这 里 我 们 先 看 最 后 两 列 ， 就 是 两 组 资 
料 总 体 均 数 之 差 的 95% 置 信 区 间 的 下 限 和 上 限 。 因 为 前 面 的 结果 表明 方差 齐 ， 所 以 我 们 看 
上 面 一 行 的 结果 ， 即 两 组 资料 总 体 均 数 之 差 的 95% 置 信 区 间 为 (-13.37395,3.86113)。 在 默 
认 状 态 下 ，SPSS 计算 的 是 95% 置 信 区 间 ， 用 户 还 可 以 自己 定义 置信 区 间 的 置信 和 度 ， 方 法 
如 下 。 

当 出 现 如 图 4-4 所 示 的 界面 时 ， 单 击 右 下 角 的 “Options...” 按 钮 ， 这 时 ， 会 出 现 如 图 
4-5 所 示 的 对 话 框 。 用 户 将 “Confidence Interval” 文 本 框 内 的 95 改 为 99 或 90， 则 输出 的 
结果 中 将 是 99% 或 90% 置 信 区 间 。 


ll 
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Independent-Samples T Test: Options 











图 4-4 独立 样本 上 检验 的 界面 图 4-5 独立 样本 上 检验 中 设置 置信 区 间 置 信 度 的 对 话 框 
42 ”总 体 方差 、 总 体 标 准 差 的 置信 区 间 
2 
按 数理 统计 理论 , 标准 正 态 变 量 的 平方 和 等 于 自由 度 为 -1 的 好 值 , 即 X2 = = 


-A4X7 SSOD, sat No?) ld uo? H 


2 
2078, 由 此 可 推出 o? 


未 知 时 ， 方 差 o? 的 100(1 一 0% 置 信 区 间 为 : 
em m) Tue 


2 "a 
Xal2n-l Nl-a/2,n-l 





将 公式 (4-9) 的 界 值 取 平方 根 ， 即 得 总 体 标准 差 o 的 100(1 一 0)% 置 信 区 间 : 


s| ae EA m (4-10) 
Nal2,n-l X1-a12,n-1 


随机 抽查 某 地 区 80 名 血吸虫 病 病 人 , 测 得 血红 蛋白 均 数 为 95g/L, 标准 
差 为 15g/L， 试 估计 总 体 方差 。 
fi: X Xoose) =105.47 (因为 公式 (4-9〉 和 公式 (4-10〉 中 对 应 的 m2 和 1-072 
是 两 个 x? 界 值 右 侧 的 面积 ， 所 以 在 SPSS 中 求 zoso 的 计算 公式 为 “IDF.CHISQ 
(0.975,79)”) 和 Y209758o_D =56.31 (SPSS 中 计算 公式 为 “IDF.CHISQ(0.025,79)”) 代入 公 
式 (4-9) 得 总 体 方差 的 95% 置 信 区 间 为 : 
152x79 152x79 
.. ' 5631 
故 该 地 区 血吸虫 感染 者 的 血红 蛋白 的 总 体 方差 的 点 估计 值 为 225g/L，95% 区 间 估 计 值 为 
168.53~315.67g/L。 


4.3” 率 的 区 间 估 计 


4.3.1 总 体 率 的 置信 区 间 
当 n 较 大 、p 和 1—p 均 不 太 小 ， 如 np 和 n(1-p) 均 大 于 5 时， 可 利用 样本 率 p 的 分 布 近 
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区 间 估计 与 假设 检验 ERA 


似 正 态 分 布 来 估计 总 体 率 的 (1-w 〉 置信 区 间 。 计 算 公式 为 : 
(p — Zai28p, P t Zai285) (4-11) 
34g 20.05 Hj, zoos2 1.96, S, 的 计算 见 公式 (4-12): 


S, = ZOP (4-12) 
n 


随机 抽取 100 名 患者 进行 新 疗法 治疗 ， 治 傅 80 人 。 计 算 新 疗法 治愈 率 
的 95958 ë P< [H] . 
解 ; 新 疗法 的 治愈 率 p= 这 = =80%， 则 


$,- [pd - p) - /0.8x0.2 -004 
n 100 


所 以 新 疗法 的 95% 置 信 区 间 为 : (0.8—1.96x0.04, 0.8 + 1.96x0.04)-(0.7216, 0.8784). 


43.2 ”两 总 体 率 差 值 的 置信 区 间 


设 两 样本 率 分 别 为 pl 和 p2， 当 ni 与 wv 均 较 大 ， 生 pi，1-pi1 及 ps2，1-p; 均 不 太 小 ， 如 
mpi; ni(1l-p) & n2p2，n2(1-p2) 均 大 于 5 时 ， 可 利用 样本 率 的 分 布 近似 正 态 分 布 ， 以 及 独立 
的 两 个 正 态 变量 之 差 也 服从 正 态 分 布 的 性 质 ， 采 用 正 态 近 似 法 对 两 总 体 率 差 值 进行 置信 区 
间 估 计 。 其 计算 公式 为 : 

[ (Pi - P2)-ZanSp-p> (f p2)* za2Sp-pi | (4-13) 
Sp-p, 的 计算 见 公式 (4-14): 


S p-p = Jp- p 2 (4-14) 
n2 


T 
e P mpm (4-15) 
n tn, 


其 中 : 


44 ”假设 检验 与 两 类 错误 


前 一 节 讲 的 置信 区 间 估 计 是 根据 样本 统计 量 Chi X n p 等 ) 的 抽样 分 布 ， 来 估计 总 体 
参数 (1 或 x 等 ) 的 大 致 范围 。 本 节 将 讨论 男 一 类 统计 学 推断 方法 ， 即 假设 检验 (Hypothesis 
Testing)。 区 闻 估 计 与 假设 检验 在 原理 上 无 根本 区 别 ， 只 是 考虑 问题 的 角度 不 同 而 已 。 假 
设 检验 首先 假设 样本 对 应 的 总 体 参 数 与 某 个 已 知 总 体 参 数 相同 ， 然 后 根据 某 样本 统计 量 的 
抽样 分 布 规律 ,分 析 样 本 数据 ,判断 样本 信息 是 否 支 持 这 种 假设 , 并 对 假设 做 出 取舍 抉择 。 


4.4.1 假设 检验 的 概念 与 原理 
假定 样本 均 数 X 来 自 均 数 为 W、 标 准 差 为 c 的 正 态 总 体 。 如 果 总 体 均 数 W 未 知 ， 为 了 检 
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验 /是 否 与 某 一 给 定 的 总 体 均 数 凡 o 相 等 ， 可 采用 /的 估计 值 乏 进行 统计 学 推断 。 

(X —u 0+0 有 两 种 可 能 : 

(D 与 40o 相 等 ， 但 由 于 抽样 误差 的 缘故 ， 引 起 了 样本 均 数 六 与 Lo 有 所 不 同 ， 

(2) 4 与 Lo 本 身 不 相等 。 

进行 统计 学 假设 检验 的 目的 就 是 为 了 识别 (X —19)70 是 由 哪 种 可 能 所 引起 的 。 假 设 
检验 的 方法 是 ， 以 这 种 差 值 ( 广 一 4 9) 为 分 子 ， 以 于 抽样 误差 的 大 小 〈 即 标准 误 ) 为 分 母 ， 
如 果 其 比例 值 的 绝对 值 不 大 ， 不 超过 某 一 界 值 ， 则 不 拒绝 Ho. 否则 ， 如 果 其 比例 值 的 绝对 
值 较 大 ， 超 过 了 某 一 界 值 ， 则 拒绝 Ho， 接 受 刀 ， 说 明 这 种 差异 不 仅仅 是 由 于 抽样 误差 所 
引起 的 ， 还 很 可 能 是 由 于 两 总 体 均 数 本 身 的 不 相等 所 引起 的 。 

以 上 所 指 的 比例 值 通常 被 称 为 检验 统计 量 ， 常 用 的 检验 统计 量 有 : nur Y. 

假设 检验 通常 设立 两 个 假设 ,一 个 被 称 为 零 假 设 (Null Hypothesis)， 记 为 Ho， 这 种 假 
设 通常 也 被 翻译 为 无 效 假设 、 原 假设 或 检验 假设 。 通 常 假定 两 个 或 多 个 总 体 均 数 相等 ， 如 
l — Ha Ru — uo =0; 假定 两 个 或 多 个 总 体 方差 相等 ， 如 of =o2; 假定 样本 所 对 应 的 总 
体 服从 某 一 统计 学 分 布 ， 如 样本 所 对 应 的 总 体 服 从 正 态 分 布 ， 等 等 。 

另 一 个 假设 被 称 为 备 择 假设 (Alternative Hypothesis )， 这 种 假设 也 叫做 研究 假设 
(Research Hypothesis)。 如 果 假 设 检 验 拒绝 了 零 假设 Ho， 则 顺 其 自然 地 接受 这 一 假设 ， 即 
这 种 假设 是 供 拒绝 零 假 设 所 后 选择 的 一 种 假设 。 这 种 假设 通常 假定 两 个 或 多 个 总 体 均 数 
不 相等 或 不 全 相等 ， 如 jz 42〈 双 侧 检 验 ) EX a >u WR), <u CEMRE): 
假定 两 个 或 多 个 总 体 方差 不 相等 ， 如 of x02: 假定 样本 所 对 应 的 总 体 不 服从 某 一 统计 学 
分 布 ， 如 样本 所 对 应 的 总 体 不 服从 正 态 分 布 ， 等 等 。 

假设 检验 是 在 Ho 成 立 的 前 提 下 , 从 样本 数据 中 寻找 证 据 来 拒绝 Ho. tZ H, 的 一 种 “ 反 
证 ”方法 ， 如 果 从 样本 数据 中 得 到 的 证 据 不 足 ， 则 只 能 不 拒绝 Ho CU BUCO Hok (El 
为 拒绝 的 证 据 不 足 )， 即 样本 与 总 体 间 的 差异 仅仅 是 由 于 抽样 误差 所 引起 的 。 

这 正如 法 官 判定 一 个 人 是 否 犯罪 一 样 ， 首 先 假定 他 “无 罪 ”(H0)， 然 后 通过 侦察 寻找 
证 据 ， 如 果 证 据 充 分 ， 则 拒绝 “无 罪 ” 的 假定 (Ho)， 判 嫌疑 人 有 罪 ， 否则 只 能 暂且 认为 
“无 罪 ” 的 假定 (Ho) 成立。 

前 面 提 到 : 如 果 比 例 值 的 绝对 值 超过 某 一 界 值 则 拒绝 Bo， 接受 H, LX — HB 
AER? 统计 上 有 一 个 名 词 叫 做 小 概率 事件 ， 这 个 界 值 就 是 根据 小 概率 事件 确定 的 。 所 
谓 小 概率 事件 ， 是 指 如 果 比 检验 统计 量 更 极端 〈 即 绝对 值 更 大 ) 的 概率 较 小 ， 比 如 小 于 等 
于 0.05〔 习 惯 上 采用 这 一 概率 值 )， 则 认为 零 假 设 的 事件 在 某 一 次 抽样 研究 中 不 会 发 生 ， 
此 时 有 充分 理由 拒绝 H。， 即 有 足够 证 据 推断 差异 具有 统计 学 意义 。 


4.4.2 ”假设 检验 的 两 类 错误 
尽管 假设 检验 可 回答 4 与 1o 是 否 相等 的 问题 ， 但 这 种 回答 是 建立 在 小 概率 事件 原理 基 
础 之 上 的 ， 无 论 是 拒绝 零 假设 Ho 〈 接 受 备 择 假设 H1)， 还 是 不 拒绝 零 假设 Ho， 都 有 可 能 
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犯错 误 。 如 果 检 验 假设 加 实际 是 正确 的 ， 由 样本 数据 计算 获得 的 检验 统计 量 得 出 拒绝 H, 
的 结论 ， 此 时 就 犯 了 错误 ,统计 学 上 将 这 种 拒绝 了 正确 的 零 假 设 Ho (RA) 的 错误 称 为 I 
类 错误 (Type I Error)。 为 了 限制 这 种 错误 发 生 的 可 能 性 大 小 ， 统 计 学 上 通常 事先 规定 一 
个 小 的 概率 ， 记 为 a( 如 a=0.05)， 以 此 为 检验 水 准 (Level of Significance) 进行 统计 学 推 
断 ， 如 果 比 样本 检验 统计 量 更 极端 的 概率 〈 即 P 值 ) 小 于 等 于 gg， 则 认为 零 假 设 的 事件 在 
某 一 次 抽样 研究 中 不 会 发 生 , 此 时 有 充分 理由 拒绝 Ho, 即 有 足够 证 据 推 断 差 异 具 有 统计 学 
意义 ;如果 比 检验 统计 量 更 极端 的 概率 〈 即 P) 大 于 w， 则 不 拒绝 Ho， 即 尚 无 足够 证 据 
推断 差异 具有 统计 学 意义 。 

假设 检验 的 另 一 类 错误 称 为 类 错误 (Type II Error), 即 检验 假设 Ho Fi AA EM CHA 
正确 )， 由 样本 数据 计算 获得 的 检验 统计 量 得 出 不 拒绝 Ho (AA) 的 结论 ， 此 时 就 犯 了 I 
类 错误 。 开 类 错误 的 概率 用 5 表示 。 

与 两 类 错误 相对 应 ， 假 设 检验 的 正确 推断 同样 有 两 类 。 不 拒绝 正确 的 Ho 的 概率 就 是 
置信 和 度 CO-a); 拒绝 不 正确 的 的 概率 ， 在 统计 学 中 称 为 检验 效能 (Power of Test) 或 把 
BR, WA 1-B. 检验 效能 的 意义 是 : 当 两 个 总 体 参数 间 存 在 差异 时 (如 备 择 假 设 Hi: usto 
成 立时 )， 所 使 用 的 统计 检验 能 够 发 现 这 种 差异 〈 拒 绝 零 假 设 Ho: u-4) 的 能 力 ， 一 般 情 
况 下 要 求 检验 效能 应 在 0.8 以 上 。 

以 上 关于 两 类 错误 的 内 容 可 总 结 为 表 4-2 和 图 4-6。 


表 4-2 两 类 错误 的 意义 






样本 假设 检验 的 结论 
I 类 错误 
犯错 误 的 概率 为 a 
即 检验 水 准 
TEM IE SR 
正确 结论 的 概率 为 (1 一 请 
又 称 为 检验 效能 


真实 情况 





推断 正确 

正确 结论 的 概率 为 (1 一 a) 
又 称 为 置信 和 度 
开 类 错误 
犯错 误 的 概率 为 8 







Ho 正确 


















ERN srito — 


在 假设 检验 时 ， 应 兼顾 犯 类 错误 的 概率 Ca ) 和 I 类 错误 的 概率 〈 有 )。 如 果 把 I 
类 错误 的 概率 定 得 很 小 ， 势 必 增 加 犯 I 类 错误 的 概率 ， 从 而 降低 了 检验 效能 ， 反 之 ， 如 果 
把 I 类 错误 的 概率 定 得 很 小 ， 势 必 增 加 犯 1 类 错误 的 概率 ， 从 而 降低 了 置信 和 度 。 若 要 同时 
减 小 a 和 ， 只 有 通过 增加 样本 含量 ， 减 少 抽 样 误差 大 小 来 实现 。 


44.3 ”假设 检验 的 基本 步骤 


下 面 以 检验 样本 均 数 广 对 应 的 总 体 均 数 4， 是 否 等 于 某 一 给 定 总 体 均 数 uo 为 例 ， 说 明 
假设 检验 的 基本 步骤 。 一 般 情况 下 ， 假 设 检 验 可 按 如 下 4 步 进行 。 

第 一 步 ， 建 立 检 验 假设 ， 确 定 检验 水 准 w。 

FRR Ho: j=JHo， 即 两 总 体 均 数 相等 ， 差 异 仅 由 抽样 误差 所 致 。 

备 择 假设 H: uuo (U< 与 4>kho， 所 以 为 双 侧 )， 其 差异 不 仅仅 由 抽样 误差 所 
致 ， 两 总 体 均 数 本 身 也 存在 差异 。 

确定 检验 水 准 o=0.05〔 通 常情 况 下 ， 控 制 1 类 错误 的 概率 在 0.05 RUF). 

根据 专业 知识 及 数据 特征 ， 备 择 假设 Hl 也 可 以 设 为 如 下 形式 。 

° Hi: H<Ho， 单 侧 (如 图 4-6 所 示 ); 

e Hi: >lo PM. 

选用 双 侧 检验 还 是 单 侧 检验 ， 需 要 根据 数据 的 特征 及 专业 知识 进行 确定 。 若 比较 甲 、 
乙 两 种 方法 有 无 差异 ， 研 究 者 只 要 求 区 分 两 种 方法 有 无 不 同 ， 无 须 区 分 何者 为 优 ， 故 应 选 
用 双 侧 检验 。 若 甲 法 是 在 乙 法 基础 上 改进 而 得 ， 已 知 如 此 改进 可 能 有 效 ， 也 可 能 无 效 ， 但 
不 可 能 改进 后 反 不 如 以 前 ， 故 应 选用 单 侧 检验 。 没 有 特殊 专业 知识 说 明 的 情况 下 ， 一 般 采 
用 双 侧 检验 即 可 。 

第 二 步 ， 选 择 检验 方法 和 计算 检验 统计 量 。 

根据 资料 的 类 型 和 分 析 目 的 等 确定 相应 的 检验 统计 量 ， 并 进行 计算 。 例 如 ， 在 总 体 方 
差 已 知情 况 下 ， 比 较 两 总 体 均 数 间 的 差异 常 采用 z 检验 ; 在 总 体 方差 未 知情 况 下 ， 比 较 两 
总 体 均 数 间 的 差异 常 采 用 1 检验 。 

第 三 步 ， 根 据 检验 统计 量 的 结果 做 出 统计 推断 。 

做 出 统计 学 推断 结论 有 两 个 主要 的 方法 。 

CD 采用 统计 软件 〈 如 SPSS, SAS) 进行 假设 检验 时 ， 通 常 可 以 输出 具体 的 P 值 。 

° WR P&a， 则 拒绝 Ho, Z 不， 认为 总 体 间 的 差异 有 统计 学 意义 ; 

° 如 果 Pa, UPE% Ho, BDJBÉÉ Hj 的 证 据 不 足 ， 暂 且 认 为 Hoi UE RR. 

PR P E, ERE Ho 成 立 的 前 提 下 ， 比 由 样本 数据 获得 的 样本 检验 统计 量 (如 zz F 
值 等 ) 更 极端 的 概率 。P 值 也 是 一 个 随机 变量 ， 即 不 同 的 样本 可 得 到 不 同 的 P 值 。 

(2) 首先 在 事先 规定 的 检验 水 准 x 下 ， 如 果 有 必要 ， 还 要 通过 自由 度 等 其 他 信息 ， 通 
过 查 表 查找 某 种 抽样 分 布 ( 如 z 分 布 、t 分布 ) 中 的 临界 值 (如 zuo, fu, 等 )， 然 后 采用 样 
本 检验 统计 量 与 之 进行 比较 。 

° 如 果 样 本 统计 量 绝对 值 大 于 等 于 临界 值 ， 则 Psa E Ho EZE 而 ， 认 为 总 体 间 
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的 差异 有 统计 学 意义 ; 
° 如 果 样本 统计 量 绝 对 值 小 于 临界 值 ， 则 Pa, PiE Ho. BHE 的 证 据 不 足 ， 
暂且 认为 加 假设 成 立 。 
过 去 , 在 计算 机 比较 少 的 情况 下 ,通常 采用 后 者 做 出 统计 推断 ; 目前 , 在 计算 机 时 代 ， 
做 出 统计 推断 常 采用 前 者 。 实 际 工作 中 只 需 采 用 这 两 种 推断 方法 中 的 一 种 即 可 。 
第 四 步 ， 根 据 统计 推断 结果 ， 结 合 相应 的 专业 知识 ， 给 出 一 个 专业 的 结论 。 
通常 情况 下 ， 假 设 检验 主要 是 上 述 三 步 ， 对 于 第 四 步 ， 通 常 需要 结合 具体 的 专业 知识 
进行 说 明 。 在 后 面 的 假设 检验 中 一 般 省 略 第 四 步 。 


45 ”样本 含量 的 估计 与 检验 效能 


无 论 是 在 调查 性 研究 中 还 是 在 实验 性 研究 中 ， 样 本 量 的 确定 都 是 一 项 很 重要 的 工作 。 
一 般 来 说 ， 大 样本 当然 比 小 样本 得 到 的 结论 更 为 精确 和 可 靠 ， 但 是 这 也 意味 着 研究 者 要 付 
出 更 多 的 时 间 、 精 力 、 人 力 和 财力 ， 有 时 还 会 导致 浪费 。 而 且 在 一 些 研究 中 ， 由 于 各 种 原 
因 的 限制 ， 也 不 能 得 到 大 的 样本 ， 这 就 更 需要 研究 者 在 研究 开始 之 前 能 够 事先 估计 出 一 个 
“ 够 用 ”的 样本 量 ， 来 保证 研究 结果 的 精确 性 和 可 靠 性 。 本 节 中 ， 将 分 别 对 不 同情 况 下 样 
本 量 估计 的 方法 加 以 介绍 。 


4.5.1 影响 样本 量 大 小 的 因素 


(1) 两 总 体 参数 差别 6 的 估计 值 ， 也 称 为 允许 误差 ， 它 反映 了 处 理 因 素 的 效应 大 小 。 
如 两 总 体 均 数 的 差别 -j=6 或 两 总 体 率 的 差别 mw=6。 6 通常 通过 查阅 文献 或 相关 专家 根 
据 经 验 而 确定 。 例 如 ， 根 据 《 中 药 新 药 临床 研究 指导 原则 》， 中 药 治疗 特 发 性 血小板 减少 
性 紫 首 的 疗效 判定 为 良 ， 可 以 使 血小板 较 用 药 前 水 平 上 升 30x107/L 以 上 ， 则 6=30x10%L。 
同样 条 件 下 ， 这 一 参数 越 小 ， 所 需 样本 量 越 大 ， 也 就 是 说 ， 从 统计 意义 上 讲 ， 如 果 想 发 现 
较 小 的 差别 就 需要 较 大 的 样本 。 如 果 样 本 的 含量 相当 大 ， 如 样本 量 与 总 体 数 接近 ， 那 么 ， 
即使 样本 统计 量 的 差别 很 小 ， 也 会 得 出 总 体 参 数 有 差异 的 结论 。 

(2) 进行 对 比 的 总 体 的 一 些 信息 。 例 如 ， 想 对 均 数 进行 比较 ， 就 需要 了 解 个 体 的 变异 
情况 ， 即 总 体 标准 差 o 是 多 少 ， 想 对 率 进行 比较 ， 就 需要 了 解 总 体 率 x。 但 是 在 实际 的 研究 
中 ， 总 体 的 参数 往往 是 未 知 的 ， 这 时 就 要 根据 文献 、 预 试验 或 经 验 来 估计 。 如 果 个 体 的 变 
异 大 ， 实 际 研究 中 所 需 的 样本 量 也 大 。 

(3) 假设 检验 水 准 w， 即 工 类 错误 概率 。a 越 小 ， 所 对 应 的 za tov 绝对 值 越 大 ， 研 
究 中 所 需 的 样本 越 多 ; 对 于 双 侧 检验 来 说 ， 同 样 的 w 所 对 应 的 zw tony 绝对 值 比 单 侧 检 验 
所 对 应 的 zo. tay 绝对 值 更 大 ， 所 以 所 需 的 样本 更 多 。 通 常情 况 下 ，o 取 0.05。 

(4) 检验 效能 (1- 尤 ， 即 把 握 度 。/ 越 小 ， 所 对 应 的 zg. tg, 绝对 值 越 大 ， 所 需 的 样本 量 
越 大 。 一 般 情况 下 ，(1- 忆 不 宜 低 于 0.75, E I REOR, 人 掩盖 各 因素 的 
效应 间 确 定 存在 的 差异 ， 得 出 假 阴 性 的 结论 。 需 要 注意 的 是 ，zp、tpy 只 取 单 侧 界 值 。 
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4.5.2 和 总体 均 数 区 间 估 计 的 样本 含量 


对 总 体 均 数 进 行 区 间 估 计 可 分 为 两 种 情况 , 一 种 是 总 体 标 准 差 a 已 知 , 可 用 公式 (4-16) 
估计 所 需 的 样本 含量 。 


2 
bd (4-16) 
Š 
男 一 种 更 常见 的 情况 是 ， 总 体 标准 差 o 未 知 ， 可 用 公式 (4-17〉 估计 所 需 的 样本 含量 。 
2 
"| (4-17) 
6 


公式 中 56 一般 取 所 求 总 体 均 数 的 (1 置信 区 间 间 距 的 二 分 之 一 ，S 是 总 体 标准 差 的 估 
计 值 。 使 用 公式 (4-17) 时 ， 最 初 的 自由 度 v 取 =， 然 后 将 求 得 的 no) 减 去 1 后 ， 作 为 新 的 
自由 度 代入 公式 中 再 求 出 一 个 新 的 nw)， 这 样 经 过 多 次 迭代 ， 直 至 所 求 的 n 达到 稳定 为 止 。 

已 知 某 地 区 成 年 男子 身高 的 标准 差 是 6.03cm， 现 在 想 进一步 了 解 该 地 
区 成 年 男子 身高 的 总 体 平均 水 平 ， 若 规定 误差 6 不 超过 0.5cm， 取 @=0.05， 试 估计 需要 调查 
多 少 人 ? 

解 ， 已 知 o=0.05， 总 体 标准 差 已 知 ， 所 以 用 公式 (4-16): 

a (2s J [sese ) _559 
Š 0.5 
即 需要 调查 559 A. 


4.5.8 ”样本 均 数 与 总 体 均 数 比 较 样本 含量 估计 


2 
talv +ÍBy 
=| 2 Bv (4-18) 
Í | 8lo | 


在 实际 研究 中 ， 由 于 总 体 标准 差 o 通 常 未 知 ， 所 以 也 用 样本 标准 差 s 来 代替 。6 为 容许 
误差 (研究 者 提出 的 差 值 )。 在 n 求 出 之 前 ， 自 由 度 v=n-1 未 知 ， 需 先 用 = 来 代替 ， 求 出 一 
个 notim. MA HE vno- 查 表 求 出 L.l tpv， 代 入 公式 (4-18) KHE no,， 这 样 反 复 
和 迭代， 直至 前 后 两 次 所 求 的 n 基本 接近 为 止 。t 界 值 有 单 侧 和 双 侧 之 分 ， 即 为 twzv 和 如 w 
在 没有 特殊 说 明 的 情况 下 取 双 侧 ， 而 tv 只 取 单 侧 。 

某 药 厂 研究 某 新 药 治疗 高 血压 的 疗效 ， 要 求 用 药 后 舒张 压 下 降 1.5kPa 
才 算 该 药 有 实际 疗效 。 根 据 以 前 的 试验 表明 ， 和 舒张 压 下 降 量 的 标准 差 为 3kPa。 若 规定 
0=0.05， 检 验 效能 1 - 有 0.8， 试 估计 需要 多 少 病人 进行 临床 试验 ? 

解 : 由 于 本 例 只 认为 血压 下 降 方 为 有 效 ， 所 以 用 单 侧 检验 。 已 知 o=0.05，PB=0.2， 样 本 
标准 差 $=3kPa，10.0s.w=1.645，t02。=0.842， 所 以 用 公式 (4-18) 有 : 

ny = (ie -- 0.842 


2 
=24.74 ， 取 25 
1.5/3 J 
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按 自由 度 w=25-1=24 查 上 界 值 表 ， 可 得 tf00524=1.711，1t0224=0.857。 
1.711+0.857 

ro -[ 1.5/3 
Tz B P RE v=27-1=26 查 上 界 值 表 ， 可 得 t0.0s26=1.706，10226=0.856。 
na = | 1.706 + 0.856 


2 
J =26.38, HX 27 


1.5/3 
noy ng) 已 非常 接近 了 ， 故 可 认为 需要 27 例 病 人 才 有 80% 的 把 握 发 现 降 压 效果 在 1.5kPa 
以 上 的 药物 。 

对 于 配对 设计 的 样本 均 数 的 比较 ， 也 可 以 用 公式 〈4-18)， 只 不 过 这 时 公式 中 的 为 所 
需 的 对 子 数 。 


4.5.4 “完全 随机 设计 两 样本 均 数 比较 的 样本 含量 估计 


2 
J =26.26, Hz 27 


6/0 

在 公式 (4-19) P, n 和 np 分 别 为 两 样本 所 需 的 样本 含量 。 在 实际 研究 中 ， 通 常用 样 
本 标准 差 $ 来 代替 总 体 标准 差 o。 在 n 求 出 之 前 ， 自 由 度 v=n-1 未 知 ， 需 先 用 来 代替 ， 求 
出 一 个 nww 值 后 ， 用 自由 度 y=2nay-2 查 表 求 出 twy 与 tv， 代入 公式 (4-190 RH no R 
有 反复 迭代 ， 秀 至 前 后 两 次 所 求 的 n 基本 接近 为 止 。twy 有 单 侧 和 双 侧 之 分 ,而 tpy 只 取 单 侧 。 

某 药 厂 想 对 本 厂 新 研发 的 降 压 药 A 与 标准 降 压 药 B 的 疗效 进行 比较 。 
已 知 B 药 能 使 血压 平均 下 降 2kPa, 期 望 A 药 能 平均 下 降 4kPa, 若 降 压 值 的 标准 差 为 4.5kPa， 
试问 在 a=0.05，1- 有 0.8 的 条 件 下 ， 需 要 多 少 病人 进行 临床 试验 ? 

解 : 由 于 本 例 只 认为 A 药 平均 降 压 值 比 B 药 有 效 ， 所 以 用 单 侧 检验 。 已 知 oz0.05， 
用 0.2， 样 本 标准 差 S-4.5SkPa, Ó-ui—4574—2-2kPa, toos«=1.645, 192.20.842, MUAMAR 
(4-19) 有 : 


2 
L +t 
ed (4-19) 


na, = 2x| 1645: 0.842 
© 2/4.5 

f& H H BEF v=63x2—2=124, H SPSS 的 函数 IDF.T(0.95,124) 可 求 得 to0s124=1.657， 用 SPSS 的 

函数 IDF.T(0.8,124) 可 求 得 102.124=0.845。 


1.657 + 0.845 
na = 2X| —— D 
2/4.5 


J H HE v=64x2—2=126, HJ SPSS 的 函数 IDF.T(0.95,126) 可 求 得 toos,126=1.657, M SPSS 的 
函数 IDF.T(0.8,126) 可 求 得 102.124=0.844。 


= + 0.844 
nga) = 2x| —— 


2 
| =62.62 ， 取 63 


2 
J =63.38, HZ 64 


2/4.5 
noy ng9) 已 非常 接近 了 ， 故 可 认为 每 组 需要 64 例 病 人 才 有 80% 的 把 握 发 现 A 药 的 降 压 效 


2 
J =63.33, HX 64 


| 435 


SPSS ron 0 0— 





JR TE 4kPa 以 上 。 
4.5.5 ”完全 随机 设计 多 个 样本 均 数 比较 的 样本 含量 估计 
k 
Ys 
LL 
n=- 上 (4-20) 
> (x - xY 
= k-1 
RP, on 为 各 组 需要 的 样本 例 数 ，k 为 处 理 组 组 数 。 X 和 ;分 别 为 第 i 个 样本 均 数 和 标准 


k 
Xi 
差 的 估计 值 ， z- 2 Ynn 可 通过 查 y 值 表 得 到 。 在 计算 时 ， 先 以 mw= 上 二 1、w=oo 查 表 
18 wy, v, E WRB no: 然后 再 以 Vi=k-1、V2=k(nay-1) 查 表 得 ywv, 值 ， 依 此 类 推 ， 直 到 前 
后 两 次 求 得 的 n 趋 于 稳定 为 止 。 

某 药 厂 观察 三 种 降 压 药 的 疗效 , 经 预 试验 测 得 各 药物 治疗 后 血压 下 降 的 
均 数 分 别 为 18mmHg、15mmHg 和 10mmHg， 标 准 差分 别 为 12.1mmHg. 11.9mmHg 和 
10.7mmHg。 试 问 在 o=0.05、1-B=0.9 的 条 件 下 ， 每 组 需要 多 少 病 人 进行 临床 试验 ? 

解 : 本 例 区 =18. X,=15. 、 = 10 ; Si=12.1、S2=11.9、S3=10.7。 


X= — =14.333 





k 
Y (X, - Xy 208-1433)? + (15—14.333)? + (10 —14.333)? = 32.667 


i-l 
k 
$ S? 212. «11.9? «10.7? = 402.51 
i=1 
ple=0.2.05. B=0.1. vi=k-1=2, v=» A wil E f, —2.52, 将 上 述 值 代入 公式 (4-20)， 
可 得 : 
2,552 x 402.51 


_ 3 _ 
no 7— 33665; 5216, H53 


2 
BRblo-0.05. B-0.1. vi=k-1=2, v,=k(nay-1)=3x(53—-1)=156 查 W 值 表 ， 因 表 中 无 w 为 
150 时 的 值 ， 故 取 相 近 的 w=120 时 的 值 ，W 120 =2.55， 再 根据 公式 (4-20) 计算 得 : 
52 x 402.51 


2.5 
_ 3 _ 
na) = 32.667 53.41, 取 54 


2 
两 次 的 结果 十 分 接近 ， 故 可 认为 每 组 需要 54 人 进行 临床 试验 。 
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4.5.6 ”估计 总 体 率 时 的 样本 含量 估计 


n- ined- p) 

5 为 简单 随机 抽样 方法 对 总 体 率 估计 时 所 需 的 样本 含量 ，zonp 为 检验 水 准 ao 所 对 应 的 双 
侧 z JE p 为 总 体 率 z 的 估计 值 ，6 为 允许 误差 的 最 大 值 。 

某 地 和 欲 调查 7 岁 以 上 儿童 参加 过 夏令 营 的 比例 , 在 预 调查 中 这 个 比例 为 
85%， 要 求 正 式 调查 时 所 得 的 样本 率 与 未 知 总 体 率 相 差 不 超 过 5% 的 可 能 性 不 大 于 0.05。 
如 果 采 用 简单 随机 抽样 ， 需 要 多 少 调查 对 和 象 ? 

解 ， 本 例 Q=0.05， 故 zo=1.96。 将 p20.85. 620.05 代入 公式 “4-21) 得 : 

1.96? x0.85x (1 — 0.85) 
n= xUx (i U.S) 
0.05? 
故 正 式 调 查 时 需要 调查 196 人 。 


4.5.7 ”样本 率 与 总 体 率 比较 的 样本 含量 估计 
8? 


ARP n ARRE, m CRUISE, m 为 预期 试验 的 总 体 率 ，zw2、zp 分 别 为 检验 
水 准 w 和 I 类 错误 概率 B 相 对 应 的 z 值 。 z 界 值 有 单 、 双 侧 之 分 ， 即 分 别 为 zwz 和 za HA), 
在 没有 特殊 说 明 的 情况 下 采用 双 侧 即 可 。zp 只 取 单 侧 。 

已 知 A 药 治疗 高 血压 的 有 效率 为 80%， 某 药 厂 发 明 的 一 种 新 药 的 治疗 
有 效率 为 70%， 为 了 检验 该 新 药 的 疗效 是 否 与 A 药 有 差异 ， 问 在 o=0.05、1-P-0.9 的 条 件 
下 ， 需 要 多 少 病例 进行 试验 ? 

解 : 本 例 m 四 =0.8、 厂 =0.7， 双 侧 zw2=zo.0sp=1.96， 单 侧 zp=zo.1=1.282， 代 入 公式 (4-22) 得 : 


[1.96 0.8(1— 0.8) + 1.282 /0.7(1— o] 


(4-21) 


-195.9, HX 196 


(4-22) 


REL —————- -188.10, Bi n-189 
(0.70 — 0.80) 
另外 ， 还 可 以 用 公式 (4-230 进行 近似 的 样本 量 估计 : 
2 
| (4-23) 


4.5.8 两 样本 率 比 较 的 样本 含量 估计 


2 
n =m [m (24) 


2 arcsin y pi -arcsin Jp» 
AF, ni 和 np 分别 为 两 样本 所 需 的 样本 含量 ，pi 和 ps 分 别 为 两 总 体 率 的 估计 值 ，zwz、zp 
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与 统计 分 


分 别 为 检验 水 准 a 和 TT 类 错误 概率 有 相对 应 的 z 值 。z 界 值 有 单 、 双 侧 之 分 ， 即 分 别 为 za 
和 za (〈 单 侧 )， 在 没有 特殊 说 明 的 情况 下 采用 双 侧 即 可 。zp 只 取 单 侧 。arcsin(.) 为 反正 弦 
函数 ， 由 SPSS 计算 的 函数 格式 为 “ARSIN()”。 

这 里 的 角度 单位 为 弧度 。 

某 医院 用 A. B 两 种 药 治 疗 高 血压 , 预 试验 中 得 到 A 药 显效 率 为 60%, 
B 药 显 效率 为 85%， 现 要 做 正式 试验 ， 问 在 a=0.05、pB=0.1 的 条 件 下 ， 若 要 得 出 两 药 疗效 
有 差别 的 结论 ， 需 要 治疗 多 少 例 患 者 ? 

解 : 本 例 za =zoos2=1.96， 单 侧 zf=zo4=1.282， 代 入 公式 (4-24), 4831; 

_ _1 1.96 +1.282 Pod 3.242 
nU EP d "Y assi 
故 每 组 需要 治疗 64 名 患者 ， 总 共 需 要 128 名 患者 。 


45.9 ”多 个 样本 率 比较 的 样本 含量 估计 
|a= _ 214 
2 (arcsin V Pmax — arcsin M Puis y 

公式 中 于 为 每 个 样本 所 需 的 观察 例 数 ，pmax puis 分别 为 最 大 率 和 最 小 率 ， 当 仅 知 最 
大 率 和 最 小 率 差 值 py 时 ， 则 取 pmax=0.5+tpa/2、pmin=0.5-pg/2。4 可 根据 a、B、v=k-1 查 表 得 
到 。 这 里 的 角度 单位 为 弧度 。 

LA 例 4-12 | 现 对 三 种 药物 手术 后 镇 痛 效 果 进 行 比较 ， 预 试验 得 到 的 镇 痛 有 效率 分 
别 为 40%、60% 和 80%， 现 要 做 正式 试验 ， 在 a=0.05、 庆 0.1 的 条 件 下 ， 车 要 得 出 三 种 药 
物 镇 痛 效 果 有 差别 的 结论 ， 需 要 观察 多 少 例 患者 ? 

解 : 本 例 a=0.05、 有 0.1、vVv=k-1=2， 查 表 可 得 A=12.65， 将 其 代入 公式 (4-25)， 得 到 ， 


12.65 12.65 
ELLE  =— —  -=ñ35.5, B n-36 
2(arcsin V0.8 ~ arcsin V0.4)2 — 2(1.107 — 0.685)? 


其 中 ，arcsin V0.4 由 SPSS 计算 的 函数 格式 为 “ARSIN(0.4 ** (0.5))”， 该 值 等 于 0.685. 
故 每 组 需要 36 例 ， 共 需要 观察 108 名 患者 。 


4.5.10 直线 相关 分 析 的 样本 含量 估计 


2 
zl Can + 28) E (4-26) 
In[d« 7/7] 


公式 中 n 为 样本 含量 ，r 为 已 知 总 体 相 关系 数 p 的 估计 值 ， zujz 、zp 分 别 为 检验 水 准 @ 
和 二 类 错误 概率 B 相 对 应 的 z 值 。zayz 取 双 侧 界 值 ，zg 取 单 侧 界 值 。In() 为 自然 对 数 函数 ， 
由 SPSS 计算 的 函数 格式 为 “LN()”。 

据 预 调查 表明 , 某 缺 碘 地 区 母 婴 之 间 TSH 水 平 的 直线 相关 系数 为 0.76， 
问 在 o=0.05、P-0.1 的 条 件 下 , 得 到 相关 系数 有 统计 学 意义 的 结论 , 需要 调查 多 少 对 母 婴 ? 


2 
J =63.8 ， 取 ni=n;=64 


(4-25) 
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解 : 本 例 o=0.05、B=0.1， 双 侧 aoso=1.96、 单 侧 zo1=1.282，r=0.76， 将 其 代入 公式 (4-26) 得 : 
1.96+1.282 


ui | In1765 24 


故 在 正式 调查 中 ， 需 要 调查 14 对 母 婴 。 


4.5.11 检验 效能 


通过 假设 检验 ， 如 果 得 到 P<a， 则 拒绝 Ho， 接 受 有 4， 这 种 情况 下 将 有 可 能 犯 1 类 错 
ix. 如 果 得 到 >a， 则 不 拒绝 Ho， 这 种 情况 下 将 有 可 能 犯 U 类 错误 。HH 是 正确 的 ， 假 设 
检验 不 拒绝 不 正确 的 Ho， 即 犯 了 工 类 错误 ,其 概率 大 小 可 记 为 Bo H 1-B 就 是 对 实际 正确 
的 H 做 出 “接受 ”结论 之 概率 ， 即 检验 效能 ， 是 两 总 体 确 有 差别 时 ， 按 检验 水 准 a, nd 
检验 能 发 现 其 差别 (拒绝 Ho) 的 能 力 。 国 内 学 者 也 称 它 为 把 握 度 ， 即 假设 检验 对 实际 正确 
的 所 做 出 “接受 ”结论 之 把 握 程度 。 

当 样本 含量 很 少时 ， 即 使 两 样本 均 数 或 两 样本 率 相差 很 大 ， 而 且 有 较 好 的 临床 价值 ， 
如 试验 药 不 仅 起 效 快 ， 而 且 有 效率 比 对 照 药 提高 许多 (如 15%)， 也 可 能 获得 较 大 的 P (Ë 
( 即 差异 无 统计 学 意义 )。 对 于 两 个 样本 有 效率 相差 如 此 之 大 ， 经 假设 检验 后 为 什么 会 得 出 
不 拒绝 Ho: m = zz 的 结论 呢 ? 原来 这 与 检验 效能 的 影响 因素 有 关 ， 影 响 检 验 效 能 的 因素 
有 4 个 ， 下 面 以 两 样本 均 数 的 比较 为 例 说 明 。 

(1) 总 体 参数 间 差 异 越 大 ， 检 验 效能 越 大 。 记 6 = 和 同一 几 ，151 越 大 ， 越 有 可 能 在 抽 
样 中 获得 较 大 差别 的 两 样本 均 数 差 值 X, - 序 ; 。 在 其 他 条 件 相同 的 情况 下 ，151 越 大 ， 从 概 
率 意义 上 讲 ，| 元 -元 | 也 越 大 ; 样本 统计 量 1 越 大 , 越 有 可 能 拒绝 如 得 到 两 总 体 间 有 差别 
的 结论 。 图 4-7 表明 了 在 其 他 条 件 相同 且 6, > 6, 情况 下 ， 有 (1- B2)» (1 有)。 


2 


Mo £ i N Ho 


| h 





x 


x 


Hs +Ó, lh +Ó, 
图 4-7 总 体 均 数 间 差异 越 大 检验 效能 越 大 


(2) 个 体 差异 〈 标 准 差 ) 越 小 ， 检 验 效 能 越 大 。 若 比较 的 两 总 体内 的 个 体 差 异 越 小 ， 
即 总 体 标 准 差 o = ai = az 越 小 ， 从 概率 意义 上 讲 ， 样 本 标准 差 5S1 和 S, 越 小 ， 两 均 数 之 差 
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的 标准 误 Sgp Rho t 检验 公式 中 的 分 母 Sx,_zx, 越 小 ， 样 本 统计 量 t 越 大 ， 越 有 可 能 拒 
绝 Ho 得 到 两 总 体 间 有 差别 的 结论 。 图 4-8 表明 了 在 其 他 条 件 相 同 的 情况 下 ,个 体 差异 〈 标 
准 差 ) 越 小 ， 导 致 Sx,_x, 越 小 ， 最 终 导 致 检验 效能 越 大 。 





图 4-8 ”两 均 数 之 差 的 标准 误 越 小 检验 效能 越 大 


(3) 样本 含量 越 大 ， 检 验 效能 越 大 。 在 两 均 数 比较 的 t 检验 中 ， 两 样本 例 数 ni 和 n; 
Ej Sg, x, 呈 反 比 。 在 其 他 条 件 相 同 的 情况 下 ，mm 和 ns 越 大 ，Sz_x, 越 小 ， 样 本 统计 量 OS 
大 ， 越 有 可 能 拒绝 有 得 到 两 总 体 间 有 差别 的 结论 。 同 样 参 见 图 4-8。 

(4) 检验 水 准 w ( 即 工 类 错误 的 概率 ) 定 得 越 大 ， 检 验 效 能 越 大 。w = 0.05 时 的 检验 效 
SEX T a = 0.01 时 的 检验 效能 。 因 为 o 定 得 越 大 ， 检验 的 检验 界 值 越 小 ， 假 设 检验 越 容易 
拒绝 Ho. Pd 4-9 表明 了 在 其 他 条 件 相同 的 情况 下 ， 检 验 水 准 o 定 得 越 大 ， 检 验 效能 越 大 。 
Æa: »o 情况 下 ， 有 (1- 8 )>(1- B) - 





4 +ô 


4-9 检验 水 准 C 定 得 越 大 检验 效能 越 大 


在 以 上 影响 检验 效能 的 4 个 因素 中 ， 总 体 参 数 的 差异 5、 总体 标准 差 c 、 检 验 水 准 w 
通常 是 相对 固定 的 ， 可 以 人 为 调整 的 因素 主要 是 样本 含量 n!、n,。 所 以 ， 如 果 检 验 效能 不 
够 大 ， 一 个 较 好 的 增 大 检验 效能 的 方法 就 是 增加 样本 含量 。 
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本 章 主 要 介绍 尺度 变量 〈 即 区 间 变 量 ) 数据 的 假设 检验 方法 ， 包 括 1 检验 和 方差 分 析 。 
5.1 1 检验 


5.1.1 单个 总 体 均 数 的 上 检验 


通常 情况 下 ,总 体 标准 差 o 是 未 知 的 。 如 果 采 用 样本 标准 差 s 取代 总 体 标准 差 o， 此 时 
样本 均 数 的 抽样 分 布 服从 上 分布 。 为 了 检验 某 一 总 体 均 数 是 否 与 某 一 给 定 总 体 均 数 间 存 在 
差异 ， 应 采用 上 检验 。 

某 药 物 在 某 溶剂 中 溶解 后 的 标准 浓度 为 20.00mg/L。 现 采用 某 种 方法 ， 
测量 该 药物 溶解 液 11 次 , 测量 后 得 到 的 结果 为 : 20.99、20.41、20.10、20.00、20.91、22.41、 
20.00. 23.00. 22.00. 19.89. 21.11. B|: 用 该 方法 测量 所 得 结果 是 否 与 标准 浓度 值 有 所 不 
同 ? 

分 析 步 又 如 下 。 

D 建立 检验 假设 ， 确 定 检验 水 准 a。 

Ho: 某 种 方法 测量 结果 所 对 应 总 体 均 数 /与 标准 浓度 us 相等， 即 1=jio; 

Hi: uuo (包括 MU<1o 5 u>): 

00.05. 

(A 在 SPSS 13 中 选择 检验 方法 和 计算 检验 统计 量 。 

因为 总 体 标准 差 o 未 知 , 所 以 采用 上 检验 .用 如 图 5-1 所 示 形 式 在 SPSS 中 输入 数据 (> 
件 见 配 书 光盘 中 的 data5-1.xIs 或 data5-1.sav)。 


与 统计 分 





图 5-1 例 5-1 的 数据 


在 SPSS 中 的 操作 步骤 如 下 。 

JAnadyze si: (o SERŽ k 32k Analyze 

Compare Means 一 在 下 拉 菜单 上 选取 Compare Means 

One-Sample T Test... 全 在 下 拉 莱 单 上 选取 One-Sample T Test... 

Ox 一 在 左 侧 的 变量 列表 中 选择 变量 

"e = 单 击 按 钮 ， 将 变量 x 先入 到 Test Variable(s)& X 
量 列表 中 

-20 = Ë Test Value 后 输入 需要 比较 的 总 体 均 数 20 

OK 全 完成 


SPSS 的 输出 结果 如 结果 5-1 所 示 。 








Test Value = 20 


T 
95% Confidence 
Interval of the 
ECCE 
x" 2- =-= ERE | Lower | 


| 98364 | 







结果 5-1 One-Sample T Test 的 结果 


从 结果 5-1 中 可 以 看 出 ， 统 计量 t=3.056. 

(3) 根据 检验 统计 量 的 结果 做 出 统计 推断 。 

本 例 所 得 123.056, P=0.012< e =0.05， 因 此 拒绝 Ho, Z Hl， 认 为 该 方法 测量 结果 
所 对 应 总 体 均 数 4 与 标准 浓度 wo 间 的 差异 有 统计 学 意义 。 

(4) 根据 统计 推断 ， 结 合 相 应 的 专业 知识 ， 给 出 一 个 专业 的 结论 。 

采用 题 中 所 指 方法 测量 该 标准 浓度 溶液 的 效果 欠 佳 ， 该 测量 方法 有 待 进一步 改进 。 

在 结果 5-1 中 ， 还 给 出 了 样本 均 数 与 总 体 均 数 差 值 的 95% 置 信 区 间 ， 为 “0.2665,， 
1.7008)， 所 用 置信 水 平 为 SPSS 的 默认 值 ， 用 户 也 可 以 对 其 进行 修改 ， 如 图 5-2 所 示 。 
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L One-Sample T Test 


Test Variable(s} 
4 x 


T 


Test Value: [2o 





图 5-2 One-Sample T Test 的 选择 项 


当 出 现 如 图 5-2(a) 所 示 的 One-Sample T Test 窗口 时 ,用 户 可 单 击 右 下 角 的 “Options...” 


按钮 ， 随 即 出 现 如 图 5-2 (b) 所 示 的 One-Sample T Test 选择 项 窗口 ， 用 户 可 把 Confidence 
Interval 后 的 95 改 为 99， 这 时 SPSS 的 结果 中 给 出 的 将 是 样本 均 数 与 总 体 均 数 差 值 的 99% 
置信 区 间 。 


5.1.2 ”独立 样本 成 组 1 检验 


采用 完全 随机 设计 的 方法 ， 将 19 只 体重 、 出 生日 期 等 相仿 的 小 白鼠 随 


机 分 为 两 组 ， 其 中 一 组 喂养 高 蛋白 饲料 ， 另 一 组 喂养 低 蛋 白 饲料 ， 然 后 观察 喂养 8 周 后 各 
小 白鼠 所 增 体重 (mg) 情况 ， 问 两 组 膳食 对 小 白鼠 增加 体重 有 无 不 同 ? 


收集 的 所 增 体 重 结果 数据 如 下 〔〈 数 据 文件 见 配 书 光 盘 中 的 data5-2.xls 或 data5-2.sav )。 
高 蛋白 组 : 134 146 104 119 124 161 107 83 113 129 

低 蛋 白 组 : 70 118 101 85 107 132 94 97 123 

分 析 步 又 如 下 。 

D 建立 检验 假设 ， 确 定 检验 水 准 。 

Ho: 和 = 内 ， 即 高 蛋白 组 与 低 和 蛋白 组 所 增 体重 的 总 体 均 数 相同 

Hi: 142， 即 高 蛋白 组 与 低 蛋 白 组 所 增 体 重 的 总 体 均 数 不 同 (包括 J > uo 与 





4i < p2) 


0€ —0.05. 
D 计算 检验 统计 量 。 
用 如 图 5-3 所 示 形 式 在 SPSS 中 输入 数据 。 








图 5-3 例 5-2 的 数据 


| 143 


DN 与 统计 分 析 


在 图 5-3 的 数据 集中 包括 两 个 变量 group 和 weight, group 为 组 别 变量 ,“1?” 表 示 高 蛋 
白 组 ,“2” 表 示 低 蛋白 组 ，weight 为 小 白鼠 的 体重 。 


TE SPSS 中 的 操作 步骤 如 下 。 

Analyze 一 在 菜单 栏 上 单 击 Analyze 

Compare Means 一 在 下 拉 菜 单 上 选取 Compare Means 

JBIndependent-Samples T Test... 一 在 下 拉 菜 单 上 选取 Independent-Samples T Test... 

“weight 一 在 左 侧 的 变量 列表 中 选择 分 析 变量 weight 

Aj c3 kin, 将 变量 weight 先入 到 Test Variable(s) 
的 变量 列表 中 

-group ”在 左 侧 的 变量 列表 中 选择 分 组 变量 group 

"e J 一 单 击 按钮 ， 将 变量 group 选 入 到 Grouping 
Variable 中 

VB Defne Groups.. | — 3 # Define Groups... 按 钮 ,进入 到 定义 分 组 标志 
的 窗口 

^1 一 Group 1 后 输入 1, 表 示 变 量 group 值 为 1 的 是 第 
一 组 

2 = Group 2 后 输入 2， 表 示 变 量 group 48 2) 2 的 是 
第 二 组 

“Continue 一 返回 到 上 级 窗口 

BOK ; 号 完成 


SPSS 的 输出 结果 如 结果 5-2 所 示 。 


Independent Samples Test 














Levene's Test for 
Equality of Variances 





9596 Confidence 
Interval of the 
Std. Error Ero pac 
f Sig. (2-tailed D once Difference | tower | 
weight Equal variances 
assumed 1.973 19.00000 9.63144 | -1.32057 | 39.32057 
Equal variances 
Rof Gssumed 16.990 19.00000 9.55917 | -1.16900 | 39.16900 
结果 5-2 Independent Samples Test 的 结果 


(3. 根据 检验 统计 量 的 结果 做 出 统计 推断 。 

在 结果 5-2 的 表格 中 ,前 两 列 是 用 Levene's 方法 对 两 组 资料 进行 方差 齐 性 检验 的 结果 ， 
可 以 看 出 f=0.089，P=0.770，P 值 大 于 0.05， 所 以 两 组 资料 的 方差 齐 。 后 面 7 列 是 对 两 组 
资料 均 数 比较 t 检验 的 结果 ， 分 为 两 行 ， 上 面 一 行 是 对 应 的 方差 齐 的 结果 ， 下 面 一 行 是 对 
应 的 方差 不 齐 的 结果 。 本 例 资料 方差 齐 ， 所 以 看 上 面 一 行 的 结果 ， 二 1.973，4df17， 
Sig.(2-tailed)=0.065 分 别 是 指 检验 统计 量 扩 1.973、 自 由 度 兴 17、 双 侧 检验 P=0.065; Mean 
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Difference 是 指 两 组 资料 样本 均 数 之 差 为 19.00000， 其 标准 误 为 9.63144; 两 总 体 均 数 差 值 
的 95958 ë DX [8] 29 (—1.32057, 39.32057). 在 默认 状态 下 ，SPSS 计算 的 是 95% 置 信 区 间 , H 
户 还 可 以 自己 定义 置信 区 间 的 置信 和 度 ， 方 法 见 第 4 章 所 述 。 

因为 样本 统计 量 上 所 对 应 的 P>a=0.05， 所 以 不 拒绝 Ho， 即 认为 高 蛋白 组 与 低 蛋 白 组 
小 白鼠 之 间 体 重 增加 量 的 差别 无 统计 学 意义 。 

对 于 方差 不 齐 的 两 组 资料 ， 可 看 结果 5-2 中 第 二 列 ， 它 对 应 的 是 ?检验 的 结果 。 


5.1.3 成 对 样本 1 检 验 


这 种 数据 的 特点 是 :两 组 样本 成 对 出 现 ， 一 个 对 子 通常 为 同一 观察 单位 〈 如 同一 病人 
服药 前 后 比较 ， 同 一 血样 采用 两 种 方法 测量 ) 或 某 些 属性 相似 的 两 个 体 ( 如 将 同 富 、 同 峻 
雄 、 体 重 相近 的 小 白鼠 配 成 对 子 ， 对 子 中 的 两 个 个 体 通过 随机 方法 分 配 到 两 个 组 ， 分 别 接 
受 两 种 处 理 ， 此 称 为 配对 设计 )。 这 种 设计 的 优点 在 于 : 减少 了 每 一 对 子 内 部 的 非 处 理 因 
素 间 的 差异 。 

将 大 白鼠 配 成 8 对 , 每 对 分 别 喂 以 正常 饲料 和 缺乏 维生素 E 饲料 , 测 得 
两 组 大 白鼠 肝 中 维生素 A 的 含量 如 表 5-1 所 示 〈 数 据 见 配 书 光 盘 中 的 data5-3.xls 或 
data5-3.sav )， 试 比较 两 组 大 白鼠 肝 中 维生素 A 的 含量 有 无 差别 。 


表 5-1 不 同 饲料 组 大 白鼠 肝 中 维生素 A 的 含量 (IU/g) 
大 白鼠 配对 号 正常 饲料 组 缺乏 维生素 E 饲料 组 


1 3550 2450 
2 2000 2400 
3 3000 1800 
4 3950 3200 
5 3800 3250 
6 3750 2700 
7 3450 2500 
8 3050 1750 


分 析 步 又 如 下 。 

QD 建立 检验 假设 ， 确 定 检验 水 准 w。 

Ho: LUs=0， 即 每 对 大 白鼠 肝 中 维生素 A 的 差 值 d 所 对 应 的 总 体 均 数 Ms 来 自 均 数 为 0 
的 正 态 总 体 ; 

Hi: Ha #0 (包括 44 «0 5515 >0); 

00.05. 

(3) 选择 检验 方法 和 计算 检验 统计 量 。 

用 如 图 5-4 所 示 形 式 输入 数据 , 该 数据 集中 包括 两 个 变量 , normal 为 正常 饲料 组 , treat 
为 缺乏 维生素 E 饲料 组 。 
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3550.00 2450.00 
2000.00 2400.00 
3000.00 1800.00 
3950.00 3200.00 
3800.00 3250.00 
3750.00 2700.00 


3450.00 2500.00 


3050.00, 1750.00 
9 





图 5-4 fJ 5-3 的 数据 


在 SPSS 中 的 操作 步骤 如 下 。 

Analyze | die 一 在 菜单 上 单 击 Analyze 

Compare Means — 一 在 下 拉 菜 单 上 选取 Compare 

Paired-Samples T Test... 一 在 下 拉 菜 单 上 选取 Paired-Samples T Test... 

二 在 点 侧 的 变量 列表 中 选择 分 析 变 量 normal 和 treat 

A ， 一 单 击 按钮 ， 将 变量 normal 和 treat 先入 到 Paired 
Variable(s) 的 变量 列表 中 

-OK FER 


SPSS 的 输出 结果 如 结果 5-3 所 示 。 


Paired Samples Test 













Paired Differences 
NEN "= 
Interval of the 
Std. Error SIRNA 
Std. Deviation | Mean | Lower | — 2-talled 


[Parr romar- rocile12.50000 | 54.25347 [199.12977 [3 本 过 上 


结果 5-3 Paired Samples Test 的 结果 


(3) 根据 检验 统计 量 的 结果 做 出 统计 推断 。 

在 结果 5-3 的 表格 中 , 列 出 了 两 组 资料 的 差 值 的 均 数 为 812.5, 其 标准 差 和 标准 误 分 别 
为 546.25347 和 193.12977; 两 组 资料 所 对 应 的 两 个 总 体 差 值 的 均 数 的 95% 置 信 区 间 为 
(355.82067, 1269.179). Buxj 检验 的 统计 量 :为 4.207， 所 对 应 的 双 侧 P (8 2 0.004<0.05， 
因此 拒绝 Ho。， 即 两 种 饲料 喂养 的 大 白鼠 肝 中 维生素 A 的 含量 差别 有 统计 学 意义 。 


5.2 ” 单 向 方差 分 析 
5.2.1 两 组 资料 的 单 向 方差 分 析 

对 于 例 5-2 的 资料 ， 除 了 用 独立 样本 的 1 检验 外 ， 还 可 以 用 单 向 方差 分 析 (One-way 
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ANOVA), 假设 检验 的 步骤 与 5.1.2 节 中 完全 相同 ， 这 里 不 再 获 述 ， 只 介绍 在 SPSS 中 的 操 
作 步 骤 。 

Analyze 一 在 菜单 栏 上 单 击 Analyze 

-BCompare Means ”一 在 下 拉 菜 单 上 选取 Compare Means 

-One-Way Anova... 在 下 拉 莱 单 上 选取 One-Way Anova... 


weight 一 在 左 侧 的 变量 列表 中 选择 分 析 变 量 weight 

Je » ] 一 单 击 按钮 ， 将 变量 weight 选 入 到 Dependent List 的 变量 列表 中 
-group 一 在 左 侧 的 变量 列表 中 选择 分 组 变量 group 

"e ] 一 单 击 按钮 ， 将 变量 group 先入 到 Factor 中 

-OK 一 完成 


SPSS 的 输出 结果 如 结果 5-4 所 示 。 


ANOVA 


weight 






Z I ZS = lasa sac) 
Squares Mean Square 
Between Groups | 1710.000 1710.000 5 892 

Within Groups 7470.000 E 439.412 

Total 9180.000 18 


结果 5-4 One-way Anova 的 结果 





结果 5-4 给 出 了 单 向 方差 分 析 表 ， 第 一 列 数字 分 别 是 组 间 离 均 差 平方 和 、 组 内 离 均 差 
平方 和 及 总 的 离 均 差 平方 和 ;第 二 列 数字 是 组 间 的 自由 度 、 组 内 的 自由 度 和 总 的 自由 度 ; 
第 三 列 数字 是 组 间 均 方 和 组 内 均 方 ; 第 五 列 是 检验 统计 量 F (Ë; 最 后 一 列 是 五 值 所 对 应 的 
P 值 。 从 P 值 可 以 看 出 ， 单 向 方差 分 析 的 结果 与 1 检验 的 结果 完全 一 致 。 


5.2.2 多 组 资料 的 单 向 方差 分 析 


单 向 方差 分 析 更 经 常 地 应 用 于 完全 随机 设计 的 多 组 资料 的 均 数 比较 中 ， 下 面 通过 实例 
加 以 说 明 。 

为 了 研究 溪 伤 后 不 同时 间 切 疾 对 大 鼠 肝 脏 三 磷酸 腺 菁 (ATP》 的 影响 ， 
现 将 30 只 雄性 大 鼠 随 机 分 成 3 组 ， 每 组 10 R: A 组 为 烫伤 对 照 组 ，B 组 为 烫伤 后 24 小 
时 切 痴 组 ，C 组 为 烫伤 后 96 小 时 切 阁 组。 全 部 大 鼠 在 烫伤 168 小 时 后 处 死 并 测量 其 肝脏 
ATP 含量 ， 结 果 见 表 5-2〈 数 据 见 配 书 光盘 中 的 data5-4.xls 或 data5-4.sav) 。 试 检验 3 组 
大 鼠 肝 脏 ATP 总 体 均 数 是 否 相 同 。 
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表 5-2 AFB245FBFBE ATP 含量 (mg) 的 测量 结果 


A 组 B 组 C 组 
7.67 11.24 10.74 
7.53 11.70 8.68 
8.39 11.52 7.32 
8.51 13.65 9.41 
10.18 13.43 9.62 
7.03 14.19 8.78 
11.69 7.21 8.32 
5.74 12.87 9.85 
6.72 13.89 11.31 
7.07 16.93 ` 8.73 


统计 分 析 步 骤 如 下 。 
(QD) 建立 检验 假设 ， 确 定 检验 水 准 w。 
Hi=H2=H3， 即 不 同时 期 切 痴 对 大 鼠 肝 脏 ATP. 含量 无 影响 ; 
H: dns dos Hs 不 等 或 不 全 相等 ， 即 不 同时 期 切 病 对 大 鼠 肝 脏 ATP 含量 有 影响 ; 
00.05. 
(à) 选择 检验 方法 和 计算 检验 统计 量 。 
用 如 图 5-5 所 示 形 式 输 入 数据 。 








图 5-5 例 5-4 的 数据 


在 如 图 5-5 所 示 的 数据 集中 , 包括 两 个 变量 , 一 个 是 分 组 变量 group, 取 值 为 1、2、3， 
分 别 代 表 A IH. B 组 和 C 组 ， 另 一 个 是 分 析 变 量 ATP， 即 大 鼠 肝 脏 ATP 含量 。 

在 SPSS 13.0 中 进行 检验 的 步骤 和 5.2.1 节 中 完全 相同 ， 这 里 只 列 出 其 统计 分 析 结 果 
如 结果 $-5 所 示 。 


ANOVA 


ATP 





— P — P" 
Squares Mean Square 

Between Groups| 114.065 57.033 15.767 

Within Groups 97.663 3.617 

Total 211.729 


结果 5-5 例 5-4 的 方差 分 析 结 





148 | 


区 间 数 据 的 统计 推断 EE 


(3| 根据 检验 统计 量 的 结果 做 出 统计 推断 。 
在 结果 5-5 的 方差 分 析 表 格 中 ，3 组 资料 均 数 比较 的 检验 统计 量 严 为 15.767， 所 对 应 
的 P 值 为 0.000<0.05， 因 此 拒绝 Ho， 即 不 同时 期 切 痴 对 大 鼠 肝 脏 ATP 含量 有 影响 。 


5.3 ”双向 方差 分 析 


5.3.1 基本 分 析 步 又 


在 某 些 研究 中 ， 先 将 受 试 对 象 按 可 能 影响 试验 结果 的 属性 分 组 〈 非 随机 组 )， 分 组 的 
原则 是 将 属性 相同 或 相近 的 受 试 对 象 分 在 同一 组 内 ， 如 将 病人 按 年 龄 、 性 别 、 职 业 或 病情 
分 组 ， 或 者 将 动物 按 性 别 、 体 重 分 组 ， 然 后 再 采用 随机 化 的 方法 对 每 个 组 内 的 受 试 对 象 分 
配 各 种 处 理 。 这 种 研究 设计 方法 称 为 完全 随机 区 组 设计 (Randomized Complete Block 
Design)， 也 称 为 随机 区 组 设计 、 配 伍 组 设计 或 单位 组 设计 ， 实 际 上 是 对 配对 设计 的 一 种 扩 
展 。 对 于 这 种 资料 的 方差 分 析 ， 应 该 采用 双向 方差 分 析 CTwo-way ANOVA)， 下 面 通过 实 
例 加 以 说 明 。 

为 了 比较 不 同 浓度 的 血水 草 总 生物 碱 对 血吸虫 尾 蚁 的 杀 灭 作 用 ， 现 将 
48 只 肉 性 小 鼠 感 染 40 只 血吸虫 尾 蜗 ， 然 后 将 小 鼠 按 体重 从 轻 到 重 编号 ， 将 体重 相近 的 4 
只 小 鼠 配 成 一 个 区 组 ， 共 分 为 12 个 区 组 ， 对 每 个 区 组 内 的 4 只 小 鼠 随 机 地 施加 不 同 的 处 
理 ， 其 中 以 甲 处 理 为 对 照 ， 其 余 3 种 处 理 为 不 同 浓度 的 血水 草 总 生物 碱 浓度 。 试 验 后 小 鼠 
体内 尾 蚁 的 存活 率 如 表 5-3 所 示 〈 数 据 见 配 书 光盘 中 的 data5-5.xls 或 data5-5.sav )， 试 分 析 
不 同 浓度 的 血水 草 总 后 物 碱 对 小 记 体 内 的 尾 蚁 存活 率 是 否 有 影响 。 


表 5-3 FAREMA KEHRA NRE AEE 


小 鼠 区 组 编号 am 
m e "n T 

1 0.525 0.300 8.425 0.200 
2 0.525 0.600 0.150 0.150 
3 0.700 0.500 0.375 0.250 
4 0.600 0.200 0.425 0.050 
5 0.300 0.150 0.600 0.025 
6 0.325 0.400 0.150 0.100 
7 0.625 0.625 0.300 0.175 
8 0.600 0.325 0.525 0.475 
9 0.725 0.500 0.500 0.425 
10 0.725 0.200 0.375 0.050 
11 0.700 0.500 0.300 0.250 
12 0.575 0.300 0.125 0.050 
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统计 分 析 步 又 如 下 。 


QD 建立 检验 假设 ， 确 定 检验 水 准 o。 
Ho: 册 =J2=H3=W4， 即 不 同 浓度 的 血水 草 总 生物 碱 对 小 鼠 体 内 的 尾 时 存 活 率 无 影响 ; 
Hi: as Hos as LL 不 等 或 不 全 相等 ， 即 不 同 浓度 的 血水 草 总 生物 碱 对 小 鼠 体 内 的 尾 


METEO RW: 
0:-0.05. 


(2) 选择 检验 方法 和 计算 检验 统计 量 。 
用 如 图 5-6 所 示 形 式 输入 数据 。 





图 5-6 例 5-5 的 数据 


在 如 图 5-6 所 示 的 数据 集中 , 包括 3 个 变量 , 第 1 个 是 处 理 组 变量 treat, 取 值 为 1、2、 
3、4， 分 别 代表 甲 、 乙 、 两 、 丁 4 种 处 理 ; 第 二 个 是 区 组 变量 block， 分 别 是 1 一 12 个 区 
组 ; 第 3 个 变量 是 rate， 即 尾 蚁 存活 率 。 

SPSS 中 进行 双向 方差 分 析 的 操作 步骤 如 下 。 


Analyze 

General Linear Model 
Univariate... 

rate 


oo 


treat 
LJ 
block 
ALJ 

VG Moda. | 


VB) C Custom 
Main effects 
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= # £ `£ ë k £ Analyze 

号 在 下 拉 菜 单 上 选取 General Linear Model 

一 在 下 拉 菜 单 上 选取 Univariate... 

呈 在 左 侧 的 变量 列表 中 选择 分 析 变 量 rate 

之 单 击 按钮 ， 将 变量 rate 选 入 到 Dependent Variable 的 
变量 列表 中 

号 在 左 侧 的 变量 列表 中 选择 处 理 组 变量 treat 

号 单 击 按钮 ， 将 变量 treat 选 入 到 Fixed Factor(s) 列 表 中 

宇 在 左 侧 的 变量 列表 中 选择 区 组 变量 block 

定单 击 按钮 ,将 变量 block 选 入 到 Fixed Factor(s) 列 表 中 

= Model 按钮 ， 进 入 模型 定义 窗口 

定单 击 Custom 单 选 按钮 ， 选 择 由 用 户 自 定义 方差 分 析 
模型 中 的 各 个 效应 

= # Build Term(s) 下 的 下 拉 列 表 中 选择 Main effects 


区 间 数 据 的 统计 推断 


treat(P) 一 在 左 侧 的 Factors & Covariates 的 变量 列表 中 选择 处 
理 组 变量 treat(F) 

^e] 一 单 击 按钮 ， 将 变量 treat(P) 选 入 到 右 侧 的 Model 列表 
中 ， 在 模型 中 定义 第 一 个 主 效应 ， 即 固定 效应 treat 

"&block(F) 一 在 堪 侧 的 Factors & Covariates 的 变量 列表 中 选择 区 
组 变量 block(F) 

"e J = kja, HRE block(F) 选 入 到 右 侧 的 Model 列表 


中 ， 在 模型 中 定义 第 二 个 主 效应 ， 即 固定 效应 block 
Include intercept in model — 去除 Include intercept in model 旁边 的 勾 ,要求 在 方差 
分 析 模 型 中 不 包括 截 短 项 , 以 与 一 般 书籍 中 的 方差 分 


析 结 果 相 一 致 
“Continue ig wJ b—H4u 
BOK = ER 


SPSS 的 运行 结果 如 结果 5-6 所 示 。 


Tests of Between-Subjects Effects 


Dependent Variable: rate 


Source | of 一 一 Mean Sq I 


a 561 






a. R Squared = .928 (Adjusted R Squared = .896) 


结果 5-6 ”双向 方差 分 析 的 结果 


(3) 根据 检验 统计 量 的 结果 做 出 统计 推断 。 

在 结果 5-6 的 方差 分 析 表 格 中 , 列 出 的 是 应 用 II 型 方差 分 析 模 型 (系统 默认 的 处 理 方 
法 ) 进行 变异 分 解 的 结果 ， 第 一 行 是 对 整个 模型 的 检验 ，F=28.561，P=0.000<0.05， 表 明 
所 选择 的 模型 有 统计 学 意义 ;第 二 行 是 对 处 理 组 变量 treat 的 检验 , F=16.603, P=0.000<0.05， 
表明 各 个 处 理 组 所 对 应 的 总 体 均 数 不 全 相等 ， 即 同 浓度 的 血水 草 总 生物 碱 对 小 鼠 体 内 的 尾 
时 存活 率 有 影响 ， 第 三 行 是 对 区 组 变量 block 的 检验 ，F=1.887，P=0.078>0.05， 即 不 同 区 
组 的 小 鼠 所 对 应 的 尾 蚁 存活 率 的 总 体 均 数 相等 。 


5.3.2 XT Univariate 过 程 对 话 框 的 说 阴 


1. 主 对 话 框 
在 SPSS 13.0 中 ， 选 择 Univariate 过 程 时 ， 会 出 现 如 图 5-7 所 示 的 界面 ， 即 主 对 话 
框 。 
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5-7 Univariate 过 程 主 对 话 框 


在 Dependent Variable 框 内 ， 需 要 选择 一 个 而 且 只 能 是 一 个 要 进行 分 析 的 变量 。 

在 Fixed Factor(s) 框 内 ， 是 选 入 模型 中 的 固定 效应 变量 。 所 谓 固 定 效应 ， 是 指 研究 因 
素 的 所 有 水 平 在 样本 中 都 出 现 了 ， 针 对 该 因素 来 说 ， 从 样本 的 分 析 结 果 中 就 可 以 知道 该 因 
素 的 所 有 水 平 对 分 析 变 量 的 影响 情况 。 例 如 ， 要 研究 三 种 防护 服 对 接触 放射 物质 工作 人 员 
的 保护 作用 ， 目 前 防护 服 的 种 类 就 这 三 种 ， 则 防护 服 这 一 因素 就 是 固定 效应 。 

在 Random Factor(s) 框 内 ， 是 先入 模型 中 的 随机 效应 变量 。 所 谓 随 机 效应 ， 是 指 研究 
因素 在 样本 中 的 水 平 只 是 其 所 有 水 平 的 一 个 样本 ,如果 通过 样本 中 该 因素 的 几 个 水 平 推断 
其 所 有 水 平 对 分 析 变 量 的 影响 情况 ， 就 不 可 避免 地 存在 误差 ， 在 方差 分 析 中 ， 需 要 估计 该 
误差 的 大 小 。 例 如 ， 在 例 5-5 中 ， 样 本 中 的 血水 草 总 生物 碱 的 浓度 只 是 其 所 有 浓度 的 一 个 
样本 ， 如 果 我 们 希望 通过 分 析 结 果 外 推 其 所 有 浓度 对 尾 蚁 存活 率 的 影响 ,， 则 treat 就 是 一 个 
随机 效应 。 此 外 ，12 配伍 组 的 小 鼠 体 重 ,， 也 只 是 小 鼠 所 有 可 能 体重 中 的 一 个 样本 ， 则 block 
也 是 一 个 随机 效应 。 

那 为 什么 在 前 面 的 操作 步骤 中 ， 把 treat 和 block 都 选 入 到 Fixed Factor(s) 框 内 呢 ? ix 
是 因为 在 多 因素 方差 分 析 中 ， 若 各 因素 各 个 水 平 的 每 种 组 合 下 只 有 一 个 数据 ( 即 试验 无 重 
复 )， 随 机 效应 的 误差 是 无 法 估计 出 来 的 ， 此 时 各 个 变量 无 论 是 按 固定 效应 来 分 析 还 是 按 
随机 效应 来 分 析 ， 结 果 都 是 相同 的 。 例 如 ， 其 他 步骤 相同 ， 只 是 把 treat 和 block 都 选 入 到 
Random Factor(s) 框 内 的 分 析 结果 如 结果 5-7 所 示 。 


Tests of Between-Subjects Effects 
Dependent Variable: rate 


Type Ill Sum 
Source of Squares Mean Square 


treat Hypothesis .937 .312 13s 
Error .621 pi 

block Hypothesis .390 1.887 
Error .621 pol 


a. MS(Error) 













结果 5-7 将 treat 和 block 选 为 随机 效应 的 分 析 结 果 
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比较 结果 5-6 和 结果 5-7， 可 以 看 出 ， 对 treat 和 block 检验 的 结果 是 完全 一 样 的 。 

图 5-7 中 的 Covariate(s) 框 是 用 于 选 入 协 变量 ， 以 进行 协 方差 分 析 。 协 变量 是 指 那些 与 
因 变 量 有 影响 的 某 个 或 某 些 连续 型 变量 。 关 于 协 方差 分 析 的 具体 方法 见 本 书 高 级 篇 的 有 关 
章节 。 

WLS Weight 框 是 用 于 选 入 加 权 最 小 二 乘法 (Weighted Least-Squares) 的 权重 变量 ， 
该 变量 必须 为 数值 型 变量 。 

2. 模型 设置 对 话 框 

在 主 对话 框 中 单 击 “Model...” 按 钮 后 ， 会 出 现 如 图 5-8 所 示 的 模型 设置 对 话 框 。 











图 5-8 ”模型 设置 对 话 杠 


在 默认 状态 下 ，Specify Model 栏 内 选中 的 是 Full factorial， 即 对 所 有 分 类 变量 的 主 效 
应 和 所 有 交互 作用 都 进行 分 析 ， 通 常 这 种 情况 并 不 必要 ， 而 且 往往 无 法 得 到 结果 。 所 以 ， 
用 户 需要 在 Specify Model 栏 内 选择 Custom， 即 自己 定义 需要 在 模型 中 引入 哪些 效应 。 选 
TÉ Custom 后 ， 下 面 的 Factors & Covariates, Build Term(s) 和 Model 3 个 框 内 的 内 容 才 变 为 
可 选 。 

在 Factors & Covariates 框 内 ， 列 出 了 在 主 对 话 框 中 选择 的 所 有 固定 效应 、 随 机 效应 和 
协 变量 ， 分 别 在 变量 名 后 以 F)、(R) 和 (C) 表 示 ， 供 用 户 选择 。 

在 Build Term(s) 框 内 的 下 拉 列 表 中 ， 用 户 可 选择 模型 中 分 析 的 效应 的 等 级 ， 包 括 
Interaction (交互 作用 )、Main effects ( 24) ~ AIL 2-way (所 有 2 阶 交互 作用 ) All 3-way 
(所 有 3 阶 交互 作用 ) ， 直 到 All 5-way (所 有 5 阶 交互 作用 ) 。 

在 例 5-5 中 ， 我 们 只 分 析 主 效应 ， 所 以 只 要 首先 在 Build Term(s) 框 的 下 拉 列 表 内 选择 
Main effects， 然 后 分 别 在 Factors & Covariates 的 效应 列表 内 选择 treat(F) 和 block(F)， 再 用 
Build Term(s) 下 的 黑色 箭头 将 它们 选 入 到 右 侧 的 Model 框 内 即 可 。 

如 果 需 要 分 析 treat 与 block 的 交互 作用 〈 本 例 中 无 法 分 析 ， 这 里 只 是 以 此 介绍 一 下 交 
互 作用 的 建立 过 程 ), 则 在 Build Term(s) 框 内 的 下 拉 列 表 内 选择 Interaction, 然后 在 Factors 
& Covariates 的 效应 列表 内 连续 选中 treat(F) 和 block(F), F} Build Term(s) 下 的 黑色 箭头 
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将 它们 选 入 到 右 侧 的 Model 框 内 ， 这 时 可 看 见 在 Model 框 内 出 现 block*treat。 由 于 本 例 中 
只 有 treat 与 block 这 两 个 主 效应 ， 故 也 可 通过 在 Build Term(s) 框 内 的 下 拉 列 表 内 选择 All 
2-way 的 方式 建立 treat 与 block 的 交互 作用 ， 接 着 在 Factors & Covariates 的 效应 列表 内 连 
续 选 中 treat(F) 和 block(F)， 然 后 用 Build Term(s) 下 的 黑色 箭头 将 它们 选 入 到 右 侧 的 Model 
框 内 ， 这 时 同样 可 看 见 在 Model 框 内 出 现 block*treat。 

至 于 其 他 高 阶 交互 作用 的 建立 方式 与 此 相似 ， 这 里 不 再 更 述 。 

在 模型 设置 对 话 框 的 左下 角 ， 是 选择 模型 中 变异 分 解 的 方法 ，SPSS 中 默认 的 是 第 II 
型 ， 除 此 之 外 ， 还 有 第 I 型 、 第 工 型 和 第 IV 型 。 通 常情 况 下 ， 应 用 第 II 型 就 可 以 满足 大 
部 分 的 情况 ， 只 有 在 单元 格 缺 失 数据 的 情况 下 ， 才 应 用 到 第 IV 型 。 

在 模型 设置 对 话 框 的 右 下 角 ， 是 选择 在 模型 中 是 否 包 括 截 矩 ， 在 方差 分 析 中 ， 截 矩 通 
常 没 有 实际 意义 ， 所 以 是 否 选择 该 项 ， 对 我 们 所 要 分 析 的 效应 并 没有 影响 。 在 例 5-5 中 去 
除了 该 选项 ， 是 为 了 保持 与 一 般 书籍 中 的 方差 分 析 结 果 的 一 致 ， 如 果 选 择 了 该 选项 ， 分 析 
结果 则 如 结果 5-8 所 示 。 


Tests of Between-Subjects Effects 


Dependent Variable: rate 


of Squares Mean Sq guare 
Corrected Model 
Intercept 


treat 
block 





Corrected Total 
a. R Squared = .681 (Adjusted R Squared = .546) 


结果 5-8 ”模型 中 包括 截 矩 的 方差 分 析 结果 


和 结果 5-6 相 比 ， 可 以 看 出 ， 在 结果 5-8 中 ， 对 模型 的 检验 变 成 了 对 校正 后 的 模型 
(Corrected Model) 检验 ， 此 外 还 多 了 对 截 矩 项 〈Intercept) 的 检验 ， 而 对 treat 和 block 的 
检验 则 完全 相同 。 


54 对比 与 事后 检验 


5.4.1 对 比 
在 有 的 情况 下 ， 我 们 需要 对 某 一 因素 各 水 平 间 均 数 的 变动 趋势 进行 比较 ， 这 时 候 就 要 


用 到 对 比 〈Contrast) 功能 。 即 在 如 图 5-7 所 示 的 主 对 话 框 中 单 击 “Contrasts...” 按 钮 ， 会 
出 现 如 图 5-9 所 示 的 Contrasts 设置 窗口 。 
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如 果 我 们 想 对 treat 的 均 数 的 变动 趋势 进行 比较 ， 则 首先 在 Factors 因素 列表 框 内 选择 
treat(None), 然后 在 Change Contrast 的 比较 方法 选择 框 内 的 下 拉 列 表 中 选择 一 种 比较 方法 。 
共有 7 种 方法 可 以 选择 ， 分 别 是 : 


None， 不 进行 比较 ; 

Deviation， 将 每 一 水 平 的 均 数 和 所 有 水 平 的 总 均 数 进行 比较 ， 参 考 水 平 除外 ， 参 考 
水 平 可 以 选 第 一 个 水 平 或 最 后 一 个 水 平 ; 

Simple， 将 所 有 水 平 的 均 数 和 一 个 对 照 组 的 均 数 进行 比较 ， 对 照 组 可 以 选 第 一 个 水 
平 或 最 后 一 个 水 平 ，; 

Difference, 将 每 一 个 水 平 的 均 数 和 它 前 面 所 有 水 平 的 总 均 数 进行 比较 (第 一 个 水 平 
除外 )， 也 称 为 反 Helmert 比较 ; 

Helmert, 将 每 一 个 水 平 的 均 数 和 它 后 面 所 有 水 平 的 总 均 数 进行 比较 (最 后 一 个 水 平 
除外 ); 

Repeated， 将 每 一 个 水 平 的 均 数 和 它 后 面 一 个 水 平 的 均 数 进行 比较 (最 后 一 个 水 平 
除外 ); 

Polynomial， 比 较 线 性 方程 效应 、 二 次 方程 效应 、 三 次 方程 效应 …… ， 第 一 自由 度 
包括 所 有 水 平 的 线性 效应 ， 第 二 自由 度 包 括 二 次 效应 ， 依 此 类 推 ， 这 些 比较 用 于 估 
计 多 项 式 趋势 。 


在 这 里 ， 我 们 选择 Simple， 然 后 在 下 方 的 Reference Category 中 选择 First， 即 以 第 一 
组 为 对 照 组 ， 再 单 击 窗口 右 下 角 的 Change 按钮 ， 最 后 会 发 现 原来 Factors 因素 列表 框 内 的 
treat(None) 变 成 了 treat(Simple(first))。 

单 击 Continue 按钮 返回 到 主 对 话 框 ， 单 击 OK 按钮 ， 会 发 现 输出 结果 中 出 现 了 如 结果 
5-9 所 示 的 内 容 。 | 

从 结果 5-9 中 可 以 看 出 , 与 水 平 1 相 比 ， 水 平 2、 水 平 3、 水 平 4 与 其 均 数 间 的 差 值 分 
别 为 -0.194、--0.223、--0.394， 这 些 差 值 与 0 比较 的 P 值 分 别 为 0.002、0.000 和 0.000， 表 
8j 3 个 浓度 的 血水 草 总 生物 碱 对 小 鼠 体内 的 尾 贬 存活 率 都 有 影响 。 

由 于 其 他 比较 方法 的 结果 解释 涉及 较 多 的 统计 学 知识 ， 因 此 这 里 不 做 介绍 。 
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Contrast Results (K Matrix) 


treat Simp 
Level 2 vs. Level 1 ontrast Estimate 


Hypothesized Value 
Difference (Estimate - Hypothesized) 


Std. Error 

Sig. 

95% Confidence Interval Lower Bound 
for Difference Upper Bound 


Level 3 vs. Level 1 Contrast Estimate 
Hypothesized Value 
Difference (Estimate - Hypothesized) 


Std. Error 

Sig. 

95% Confidence Interval Lower Bound 

for Difference Upper Bound 
Level 4 vs. Level 1 Contrast Estimate 

Hypothesized Value 

Difference (Estimate - Hypothesized) 


Std. Error 

Sig. 

95% Confidence Interval Lower Bound 
for Difference Upper Bound 





a. Reference category = 1 


结果 5-9 Contrasts 分 析 的 结果 


5.4.2 事后 检验 


在 5.3 节 中 给 出 的 方差 分 析 结 果 中 ,P 值 小 于 0.05 只 是 说 明 各 个 水 平 的 均 数 不 全 相等 ， 
不 排除 某 两 个 或 某 几 个 水 平 的 均 数 相等 的 情况 ， 究 竟 哪 两 个 均 数 间 不 相等 ， 我 们 要 进行 均 
数 间 的 两 两 比较 ， 这 要 用 到 主 对 话 框 中 的 事后 检验 功能 ， 即 “Post Hoc” 功 能 。 在 图 5-7 
中 单 击 “Post Hoc...” 按 钮 ， 会 出 现 如 图 5-10 所 示 的 Post Hoc 定义 界面 。 


Univariate: Post Hoc Multiple Comparisons for Observed Means x" 


Post Hoc Tests for: 


d tg 


r Equal Variances Assumed —————— mmama 

| 7 LSD r SNK [^ Waler-Duncan | 
| [^ Bonferroni [^ Tukey Type tzType ll Eiro Rang fF | 
| [^ Sidak [^ Tukey'sb [^ Dunnett | 
| ^ Scheffe [^ Duncan C 

| 厂 BEGWF [^ Hochberg's GT2 r 

T REGWQ I Gabriel l 





r Equal Variances Not Assumed- z 
[7 Tamhane'sT2 [7 Dunnet'sT3 [^ GamesHi 














Kd 5-10 Post Hoc 定义 界面 
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在 该 界面 上 ， 我 们 需要 在 左 侧 Factor(s) 列 表 框 中 选择 进行 两 两 比较 的 因素 ， 这 里 选择 
treat， 然 后 用 中 间 的 黑 箭 头 添 加 到 右 侧 的 Post Hoc Tests for 列表 框 中 ， 当 该 列表 框 中 有 变 


E. 


下 方 的 两 两 比较 的 方法 变 为 可 选 ， 如 图 5-10 所 示 。 


在 SPSS 中 ， 针 对 方差 齐 和 方差 不 齐 的 情况 共 列 出 了 18 种 方法 ， 下 面 简单 加 以 介绍 。 
在 方差 齐 的 情况 下 ， 可 选择 的 方法 如 下 。 


LSD， 即 1 检验 的 方法 ， 它 应 用 所 有 样本 的 信息 进行 变异 和 自由 度 的 计算 ， 但 不 对 
多 重 比 较 的 错误 率 进行 校正 ， 所 以 敏感 度 较 高 ， 

Bonferroni， 对 LSD 方法 进行 了 改进 ， 即 把 每 个 检验 的 水 准 设置 为 总 的 检验 水 准 除 
Sidak， 也 是 从 上 检验 来 ， 其 对 每 个 检验 水 准 的 设置 比 Bonferroni 要 严 ; 

Scheffe， 采用 的 是 下 分 布 ,， 不 仅 用 于 均 数 间 的 两 两 比较 ， 也 可 以 对 均 数 的 线性 和 进 
行 比 较 ; 

R-E-G-W F， 即 Ryan-Einot-Gabriel-Welsch 方法 ， 是 基于 F RRRS EAr ARE 
较 方 法 ; 

R-E-G-W Q, El Ryan-Einot-Gabriel-Welsch 方法 ， 是 基于 Student range 分 布 的 多 重 
递减 比较 方法 ; 

S-N-K, BẸ Student Newman Keuls 方法 ， 是 基于 Student range 分 布 的 对 均 数 进行 两 
两 比较 的 方法 ， 均 数 从 大 到 小 排列 ， 最 大 的 均 数 间 的 差 值 最 先 检 验 ; 

Tukey， 基 于 Student range 分 布 的 对 均 数 进行 两 两 比较 的 方法 ; 

Tukey’s-b， 基 于 Student range 分 布 的 对 均 数 进行 两 两 比较 的 方法 ， 其 关键 值 是 
Tukey's HSD 检验 和 S-N-K 检验 的 平均 值 ; 

Duncan， 和 S-N-K 检验 一 样 ， 采 用 逐步 的 两 两 比较 方法 ， 但 对 一 系列 检验 的 错误 设 
置 了 保护 性 的 水 平 ; 

Hochberg's GT2， 采 用 学 生化 最 大 系数 进行 多 重 比较 和 距离 检验 ， 与 Tukey's HSD 
检验 类 似 ; 

Gabriel， 采 用 学 生化 最 大 系数 进行 两 两 比较 的 方法 ， 在 各 单元 例 数 不 等 的 情况 下 ， 
通常 比 Hochberg's GT2 检验 更 有 力 ; 

WallerDuncan， 使 用 贝 叶 斯 方法 ， 用 上 统计 量 进行 多 重 比较 ; 

Dunnett, H :检验 方法 将 一 系列 处 理 组 与 对 照 组 进行 比较 ， 当 选中 该 方法 时 ， 需 要 
在 下 方 选 择 哪 一 组 为 对 照 组 ， 默 认 是 最 后 一 组 为 对 照 组 ; 同时 还 要 选择 是 双 侧 检验 
还 是 单 侧 检验 (分 为 处 理 组 总 体 均 数 大 于 对 照 组 总 体 均 数 和 处 理 组 总 体 均 数 小 于 对 
照 组 总 体 均 数 两 种 情况 ) 。 


在 方差 不 齐 的 情况 下 ， 有 如 下 4 种 方法 可 选 。 


Tamhane's T2， 基 于 上 检验 的 保守 性 的 两 两 比较 方法 ， 适 用 于 方差 不 齐 的 情况 ; 
Dunnett's T3， 基 于 学 生化 最 大 系数 的 两 两 比较 方法 ， 适 用 于 方差 不 齐 的 情况 ; 
Games-Howell， 两 两 比较 有 时 不 太 严格 ， 本 方法 适用 于 方差 不 齐 的 情况 ; 
Dunnett's C， 基 于 Student range 的 两 两 比较 方法 ， 适 用 于 方差 不 齐 的 情况 。 
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在 实际 应 用 中 ， 这 些 方法 各 有 利弊 ， 在 选择 二 尚 无 定论 ， 一 般 来 说 ， 方 差 齐 时 最 常用 
的 是 S-N-K 方法 和 Bonferroni 方法 ， 方 差 不 齐 时 可 考虑 用 Games-Howell 方法 。 

结合 例 5-5， 我 们 选择 treat 作为 Post Hoc 检验 的 变量 ， 分 别 用 S-N-K 方法 和 Dunnett 
方法 进行 分 析 ， 在 选择 Dunnett 方法 时 ， 我 们 在 Dunnett 方法 下 面 的 Control Category 选择 
列表 中 选择 First 作为 对 照 组 。 

如 结果 5-10 所 示 是 Dunnett 检验 的 结果 ， 可 以 看 出 ， 第 2 组 、 第 3 组 、 第 4 组 的 样本 
均 数 与 第 1 组 〈 对 照 组 ) 的 样本 均 数 的 差 值 分 别 为 -0.19375、--0.22292、0.39375， 这 3 个 
数值 的 右上 角 都 有 * 号 ， 从 结果 下 方 的 注释 可 以 知道 ， 这 表示 在 0.05 水 平 上 样本 均 数 的 差 
别 具 有 统计 学 意义 。 结 果 中 还 列 出 了 样本 均 数 差 值 的 标准 误 、Dunnett t 检验 的 已 值 和 总 体 
均 数 差 值 的 95% 8 P< [8] , 

Multiple Comparisons 


Dependent Variabie: rate 


Mean 
Difference 95% Confidence Interval 
ljtreat (J)treat l-J Std. Error Sig. 
.00 

















Dunnett t (2-sidedP 2.00 100 -19375*| 055992 | ^ .004 | -.33160 
3.00 1.00 -22292*| .055992 | — .001 | -.36076 -.08507 
4.00 . 1.00 -39375*| .055992 | ^ .000 | -.53160 -.25590 


Based on observed means. 
*. The mean difference is significant at the .05 level. 





8. Dunnett t-tests treat one group as a control, and compare all other groups against it. 


结果 5-10 Dunnett 检验 的 结果 


如 结果 5-11 所 示 是 S-N-K 方法 两 两 比较 的 结果 ， 在 结果 中 ， 各 组 的 样本 均 数 是 按照 
从 小 到 大 的 顺序 从 上 到 下 排列 的 ， 差 别 无 统计 学 意义 的 样本 均 数 列 在 同一 个 Subset 下 ， 最 
后 一 行 的 Sig. 是 这 一 个 Subset 下 样本 均 数 差别 的 检验 所 对 应 的 已 值 .不 同 Subset 内 的 样本 
均 数 ， 其 两 两 间 的 差别 具有 统计 学 意义 ， 其 检验 水 准 SPSS 默认 的 设置 是 0.05， 用 户 也 可 
在 如 图 5-7 所 示 的 主 对 话 框 中 通过 单 击 “Options...” 按 钮 进行 自行 设置 。 

从 结果 5-11 中 可 以 看 出 , 除了 第 3 组 和 第 2 组 的 样本 均 数 的 差别 无 统计 学 意义 外 , 其 


他 各 组 闻 的 样本 均 数 的 差别 均 有 统计 学 意义 。 
| Subset oOo ü O] 
Lo: | 2 [ s | 
18333 
35417 
38333 
57708 
1.000 606 | — 1.000 


Means for groups in homogeneous subsets are displayed. 
Based on Type Ill Sum of Squares 
The error term is Mean Square(Error) = .019. 


8. Uses Harmonic Mean Sample Size = 12.000. 
b. Alpha = .05. 


rate 






tudent-Newman-Keulsa.P 





结果 5-11 S-N-K 法 检验 的 结果 
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5.5 “方差 齐 性 检验 


在 前 述 内 容 中 ， 反 复 提 到 过 方差 齐 性 ， 在 1 检验 中 ， 我 们 已 经 介绍 了 两 个 样本 均 数 比 
较 时 ， 如 何 通过 Levene's 方差 齐 性 检验 的 结果 判断 两 个 总 体 的 方差 是 否 齐 ， 那 么 在 单 向 方 
差分 析 和 双向 方差 分 析 中 ， 我 们 如 何 进行 方差 齐 性 检验 呢 ? 

以 例 5-4 的 资料 为 例 (数据 见 配 书 光盘 中 的 data5-4.xls 或 data5-4.sav)， 在 单 向 方差 分 
析 中 进行 方差 齐 性 检验 的 操作 步骤 如 下 。 


Analyze = Ë £ 2 E £ Analyze 

Compare Means 号 在 下 拉 菜 单 上 选取 Compare Means 

One-Way Anova... 一 在 下 拉 菜 单 上 选取 One-Way Anova... 

“ATP = 在 左 侧 的 变量 列表 中 选择 分 析 变 量 ATP 

a 一 单 击 按钮 ， 将 变量 ATP 选 入 到 Dependent List 的 变 

量 列表 中 

“group ck Z AN 65 d Yep] op ik 8228 d: X group 
宇 单 击 按钮 ， 将 变量 group 选 入 到 Factor 中 

VB Onions. | skh TA "Options." 44m 

Homogeneity of variance test 一 在 弹出 的 窗口 中 选择 方差 齐 性 检验 

“Continue 守 返 回 上 一 窗口 

-OK TER 


这 时 会 出 现 如 结果 5-12 所 示 的 检验 结果 。 


Test of Homogeneity of Variances 
ATP 


Levene 
Statistic dfi df2 Sig. 


281 
结果 5-12 单 向 方差 分 析 中 的 方差 齐 性 检验 结果 


从 结果 5-12 中 可 以 看 出 ，Levene 统计 量 为 1.3333， 所 对 应 的 P 值 为 0.281>0.05， 所 
以 在 o=0.05 水 准 上 ， 认 为 3 组 大 鼠 肝 脏 ATP 含量 总 体 的 方差 齐 。 

双向 方差 分 析 中 的 方差 齐 性 检验 的 步骤 与 此 基本 相同 ， 不 过 需要 对 各 个 处 理 组 和 各 个 
区 组 分 别 进行 方差 齐 性 检验 ， 即 在 选择 模型 中 的 Fixed Factor(s) 或 Random Factor(s) 时 总 共 
只 能 选择 一 个 变量 , 然后 在 主 对 话 框 中 单 击 “Options..…. ”按钮 , 在 出 现 的 窗口 中 选择 Display 
框 中 的 Homogeneity tests。 

对 例 5-5( 数 据 见 配 书 光盘 中 的 data5-5.xls 或 data5-5.sav) 中 的 各 个 处 理 组 和 各 个 区 组 
的 方差 齐 性 检验 的 结果 分 别 如 结果 5-13 和 结果 5-14 所 示 。 
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Levene's Test of Equality of Error Variances* Levene's Test of Equality of Error Variances* 


Dependent Variable: rate Dependent Variable: rate 

| 3| 3|] 4| 可 | [ 9 | j| 39] 4] 
Tests the nuli hypothesis that the error variance Tests the null hypothesis that the error variance 
the dependent variable is equal across groups 


the dependent variable is equal across groups 
a. Design: Infercept«treat a. Design: Intercept«block 


结果 5-13 例 5-5 中 各 处 理 组 的 方差 齐 性 检验 结果 ”结果 5-14 例 5-5 中 各 区 组 的 方差 齐 性 检验 结果 


从 结果 5-13 和 结果 5-14 可 以 看 出 ， 无 论 是 各 处 理 组 间 还 是 各 区 组 间 ， 所 对 应 的 总 体 
方差 都 呈 齐 性 。 
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和 检验 〔〈Chi-Square Test) 是 一 种 常用 于 分 类 变量 资料 的 一 种 假设 检验 ， 又 称 卡 方 检 
验 。 该 方法 主要 用 于 两 个 或 多 个 样本 率 或 构成 比 的 比较 ， 此 外 也 可 用 于 两 变量 间 的 关联 性 
分 析 、 频 数 分 布 的 拟 合 优 度 检验 等 。 该 检验 以 Xx? 分 布 为 理论 依据 ， 这 一 分 布 于 1899 年 由 
统计 学 家 K.Pearson 发 现 。 


6.1 ”四 格 表 数 据 的 卡 方 检验 


6.1.1 一 般 四 格 表 卡 方 检验 


x^ 检验 的 零 假 设 假定 比较 样本 来 自 总 体 率 (x ) 相等 的 总 体 , BD Ho: m. VA 

验 的 统计 量 〈 也 称 为 Pearson's 卡 方 检验 统计 量 〉 为 : 
x -YXY* (Ay - Tj)? (6-D 

Tj 

该 公式 是 其 他 卡 方 检验 公式 的 基础 ， 所 以 常 称 该 公式 为 卡 方 检验 基本 公式 。A 表示 
各 组 段 (或 各 格子 ) 的 实际 观察 的 频数 (Actual Observational Frequency), T 表示 算得 的 
各 组 段 〈 或 各 格子 ) 的 理论 频数 (Theoretical Frequency)， 也 称 期 望 频数 (Expectation 
Frequency), 

车 检验 假设 Ho 成 立 ， 根 据 统计 量 x* 值 的 大 小 ， 结 合 自由 度 v， 可 确定 概率 P, MOM 
总 体 做 出 推断 。 以 两 个 样本 率 的 比较 为 例 , K 6-1 是 两 个 样本 率 比较 的 数据 , 其 中 a, b, c, d 
是 两 个 样本 率 比 较 的 基本 数据 ，Ri, Ro, Ci, Cy; 是 R 行 (row)、C 列 (column)〉 边缘 合计 数 
据 ， 因 此 这 样 的 数据 资料 称 为 2X2 列 联 表 (Contingency Table)， 又 称 为 四 格 表 (Fourfold 
Table) 资料 。 


i=l j=l 





与 统计 分 


表 6-1 四 格 表 资料 
阳性 数 阴性 数 合 H 
PHH a(T1) b(T12) Ri 
乙 组 c(T2)) d(T22) R; 
合计 Ci C, N 


以 上 四 格 表 资料 中 括号 内 的 数字 代表 各 自 格子 的 理论 频数 ， 任 一 格 的 理论 频数 均 可 用 
下 式 计算 。 
R.C; 
N 
rh, Ty 为 第 i 行 、 第 j 列 对 应 格子 的 理论 频数 ，R; 为 行 数 ，C; 为 列 数 ，R; 为 第 i 行 合计 ， 
C; AB j IEH N 为 总 例 数 。 
四 个 格子 的 理论 频数 分 别 为 : Tu=RıC/N, Tə)i=R;C/N, Ti= RICyN,， T;;= RON. 
在 卡 方 检验 统计 量 中 , 3 A; 与 Ty 相差 越 小 ， (A—Tp T; 比值 就 越 小 ，x? 值 也 就 越 小 。 
当 x?<X&v，P>a 时 ,认为 与 Ty 之 间 吻 合 程度 高 ， 它 们 来 自 同一 总 体 的 可 能 性 就 比较 
X; 反之 ，X” 值 越 大 ， 吻 合 程度 越 差 ， 当 x? 2y, PSa 时 ， 可 认为 两 样本 率 来 自 同 
一 总 体 可 能 性 比较 小 。 x^ 值 的 大 小 除了 与 (4j-7;) 之 差 有 关外 ， 亦 随 格 子 数 《 即 自由 度 ) 
的 增加 而 加 大 。 自 由 度 v“=(R-D(C-D， 式 中 R 为 行 数 ，C 为 列 数 。 四 格 表 的 自由 度 为 
v=(R-1XC-1)=(2-1X{2-1)=1. 
对 于 四 格 表 资料 ， 将 公式 0620 代入 公式 (6-1) 之 中 可 以 得 到 四 格 表 专 用 公式 ， 
x° - (ad —bc)2n (6-3) 
(a+b)c+d)(a+c)(b+ d) 
除了 以 上 用 于 度量 实际 观察 频数 与 理论 频数 离 差 程 度 的 Pearson xX? 统计 量 外 ， 还 有 
似 然 比 卡 方 统计 量 (Likelihood Ratio Statistic) G2; 
G?’ = 2Y Y A; in) (6-4) 
y 


i=} j=l 


(6-2) 





T; = 


该 检验 统计 量 是 以 各 格子 的 实际 观察 频数 与 理论 频数 之 比 的 对 数 来 构造 统计 量 的 ， 对 
于 同一 资料 而 言 ， 近 似 服从 与 公式 〈6-1) 所 定义 的 卡 方 统计 量 有 相同 自由 度 的 卡 方 分 布 ， 
其 自由 度 的 确定 方法 与 Pearson Xx? 统计 量 一 致 。 在 较 大 自由 度 与 样本 含量 情况 下 , 两 个 统 
计量 值 相当 接近 。 

1， 卡 方 检验 的 基本 步骤 

以 四 格 表 资 料 为 例 ， 卡 方 检验 的 基本 步骤 如 下 。 

QU 建立 检验 假设 ， 确 定 检验 水 准 a 

Ho: NA1=NK2， 两 个 样本 率 所 代表 的 两 个 总 体 来 自 同一 个 总 体 

Hi: Ni1 冯 X2， 两 个 样本 率 所 代表 的 两 个 总 体 来 自 不 同 的 总 体 

a=0.05。 
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D 计算 检验 统计 量 。 

首先 计算 每 一 个 格子 的 理论 频数 ， 再 计算 每 一 个 格子 的 实际 观察 频数 与 理论 频数 之 差 
的 平方 并 除 以 相应 的 理论 频数 ， 用 公式 (6-1) 或 公式 (6-4) 分 别 计算 Pearson 卡 方 统计 量 
xX 或 似 然 比 统计 量 G"。 最 后 合计 每 一 个 格子 的 以 上 计算 值 ， 得 到 统计 量 。 

(3) 确定 概率 尸 值 。 

根据 Xx? 或 G2， 在 v=(R-D(C-D 的 卡 方 分 布 曲线 下 找到 比 x? 或 G^ 更 极端 的 尾部 面 
fH, BIS P fü. 

根据 假设 检验 的 检验 水 准 w 和 自由 度 v 查 x? 界 值 统计 表 ， 得 到 界 值 avo REK 
验 统计 量 大 于 等 于 该 界 值 ， 则 得 出 两 个 样本 率 来 自 不 同 总 体 的 结论 。 

四 格 表 资 料 的 x? 检 验 是 RxC 列 联 表 的 特例 ， 其 自由 度 为 1。 常 用 的 x? 界 值 是 : 
X2, =3.84, X24, =6.63。 


0.01.1 


(4) 判断 结果 。 
将 P 与 a 进行 比较 ，P<a 则 拒绝 互 o ， 得 出 两 样本 率 来 自 不 同 总 体 的 结论 ， 已 > a ， 
则 不 拒绝 Ho. ， 认 为 两 样本 率 来 自 同一 总 体 〈 见 表 6-2)。 


表 6-2 根据 卡 方 界 值 六 检验 的 结果 判断 


x5 P B ou ^» B 
< X^ oos »0.05 不 拒绝 Ho 差异 无 统计 学 意义 
2 X 00sw <0.05 JE# Ho 差异 有 统计 学 意义 
2 X 001w <0.01 拒绝 Ho 差异 有 高 度 统计 学 意义 


2. 分 类 资料 的 数据 录入 

SPSS 可 以 作为 记录 数据 的 载体 ， 因 此 在 调查 或 实验 完成 后 ， 可 以 将 数据 直接 记录 为 
SPSS 数据 形式 以 保存 原始 数据 。 记 录 的 格式 为 每 一 个 观察 对 象 对 应 一 条 记录 ， 每 条 记录 
包括 各 类 变量 。 另 一 种 记录 数据 的 形式 是 频数 表格 式 〈 见 图 6-1)， 记 录 每 一 变量 各 类 别 的 
频数 ， 这 样 比较 简单 且 直 观 ， 但 需要 用 Weight Cases 过 程 指定 一 下 频数 变量 。 





图 6-1 SPSS 频数 表格 式 


3. SPSS 操作 选项 说 明 
(1) Weight Cases 过 程 对 话 框 操作 提示 


Data ; 
Weight Cases... 


Weight Cases by[ > | Frequency Variable: 


3-3 X Data 
“在 Data 子 菜单 下 选中 Weight Cases... , 


弹出 Weight Cases... 对 话 框 
一 选 入 频数 变量 
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(2) Crosstabs ( 见 图 6-2) 


"BAnalyze : Lid 。 一 单 击 菜单 Analyze 
-Descriptive Tm mr : 人 = 在 Analyze TEXTUI Descriptive statistic 
2000005 “P Crosstabs.…. 对 话 框 





图 6-2 Crosstabs 对 话 框 


(3) 定义 Crosstabs SAT EEE A 


“ORow an i > 先入 行 变量 
fcd ooo pas aa. ney 
一 弹出 Statistics is —— 


Statistics... 
单 击 图 6-2 中 的 Statistics 按钮 ,在 弹出 的 Statistics 对 话 框 中 选择 Chi-square( 见 图 6-3). 


Crosstabs: Statistics 
r Correlali 
Ordinal 
T Gamma —— 
F Somesd ' 
T^ Kendall's taub 
| ET Kendall's tau-c | 
LIAE —1: x 29 


[^ Kappa 
| Risk 
[^ McNemar 


im a et ' 





图 6-3 Crosstabs 统计 量 选项 
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(4) 其 他 选项 说 明 


BE Correlations 呈 计 算 行 、 列 变量 的 Pearson 和 Spearman 相关 系数 

Nominal ( 名 义 ) ( 本章 涉 及 到 的 选项 ) 

S) Contingency coefficient THANK, 其 值 介 于 0~1 之 间 ， 表明 行列 变量 
的 相关 性 强度 

DM Lambda 宇 反映 由 自 变量 预测 应 变量 的 效果 ， 其 值 介 于 0~1 之 
d, 1 表示 完全 预测 ， 0 表示 完全 不 能 预测 

AEI Uncertainty coefficient ”= 不 确定 系数 ,其 值 介 于 0~1 之 间 ， 用 于 反映 当知 道 
” 自 变量 后 ， 应 变量 的 不 确定 性 下 降 了 多 T ( 比例 ) 

Ordinal ( 有 序 ) (第 7 章 涉及 到 的 选项 ) 

M Gamma 一 介 于 -1~1 之 间 , 当 观 察 值 集中 于 对 角 线 处 时 , 其 取 
值 为 -1 或 1， 表示 两 者 取 值 绝对 一 致 或 绝对 不 一 致 ; 
”如 两 变量 完全 无 关 ， 则 取 值 为 0 


DM Somers'd = 校正 自 变量 相等 的 对 子 后 的 系数 

DM Kendall's tau-b cae xp ETRE 

DM Kendall's tau-c c # tau-b 的 基础 上 对 表 的 大 小 进行 了 校正 

其 他 选项 

M Kappa 二 内 部 一 致 性 系数 ， 取 值 在 0~1 之 间 ，Kappa 宇 0.75， 


表明 两 者 一 致 性 较 好 ; 0.75 > Kappa 宇 0.4, 表明 一 臻 
性 一 般 ; Kappa<0.4， 表 明 两 者 一 致 性 较 差 


M Risk cT 3- OR 值 (优势 比 ) 和 RR 值 (相对 危险 度 ) 
DMI McNemar 一 配对 卡 方 检验 ， 进 行 基于 二 项 分 布 的 精确 概率 计算 
AM Cochran's and 一 对 两 个 二 分 类 变量 进行 独立 性 检验 和 同 质 性 ( 齐 性 ) 
Mantel-Haenszel statistics 检验 (包括 Breslow-Day 和 Tarone's 检验 方法 )， 也 
可 进行 分 层 分 析 (计算 jw 统计 量 和 调整 分 层 因素 
后 的 ORME ) 


单 击 图 6-2 中 的 Exact 和 Cells 按钮 ， 得 到 如 图 6-4 和 图 6-5 所 示 的 对 话 框 。 


Fact DM ed Dei of tte Me ea 
computational limits 


For nonasymptolic methods, cell counts are always rounded 
or truncated in computing the test statistics. 





图 6-4 Exact Tests 对 话 框 


DN 与 统计 分 析 — 
(5) 定义 Exact Tests 对 话 框 操作 选项 说 明 ( 见 图 6-4) 


pes. 










C7) 5E X Format 子 对 话 框 
Iu caput DEI um ; TEES 


E R 








4. 实例 描述 
有 195 例 肾炎 患者 , 分 别 采 用 中 药 和 西药 的 方法 治疗 , 疗效 见 表 6-3 ( 见 
配 书 光盘 中 的 数据 文件 data6-1.xls 或 data6-1.sav)。 问 两 组 的 疗效 有 无 差异 ? 


表 6-3 两 种 药物 的 疗效 对 比 结果 


治疗 组 ibai * i 
治愈 未 治愈 

西药 61 83 144 

中 药 32 19 51 

合计 93 102 195 
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表 6-3 的 SPSS 数据 格式 见 图 6-1， 行 变量 为 药物 drug， 列 变量 为 疗效 result， 频 数 为 
count， 各 占 一 列 。 


检验 假设 : 
令 两 组 总 体 的 治愈 率 分 别 是 和 zz ， 假 设 两 组 的 总 体 治 愈 率 相同 ， 均 等 于 合计 治愈 


X 93/195=47.7%, 检验 两 组 样本 率 是 否 由 于 抽样 误差 引起 的 检验 水 准 为 0.05。 其 统计 学 符 
号 表示 为 : 

Ho: m=m 〔〈( 两 药 总 体 治愈 率 相 等 ); 

Hi: m Zm 〈 两 药 总 体 治 愈 率 不 等 ); 

0 -0.05 . 

5. 2 Independent Samples Nonparametric Tests 过 程 的 操作 提示 


% 操作 提示 
(1) 定义 “count” 为 频数 变量 。 
( 2 ) 选择 Crosstabs 过 程 。 
(3) 定义 Crosstabs 过 程 。 i 
Row [>] Drug SËRË: Drug 


Column [> ] result - 选 入 列 变量 : result 
Statistics... c $i d Statistics 对 话 框 
Chi-square 号 进行 Chi-square 检验 
BOK 

6. 结果 解释 (MAR 6-1 至 结果 6-3) 


Case Processing S mm 


Cases 

















Valid Missing | Total 








Percent Percent N Percent 
ne O3 
结果 6-1 Case Processing Summary 结果 
由 结果 6-1 可 知 , 报告 处 理 记录 缺失 值 情 况 , 本 例 中 195 个 记录 皆 为 有 效 值 , 无 缺失 值 。 


drug * result Crosstabulation 





Count 








结果 6-2 ”原始 数据 的 四 格 表 
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RN io o 


结果 6-2 给 出 了 原始 数据 的 四 格 表 。 

Chi-Square Tests 

Asymp. Sig. Exact Sig. Exact Sig. 
(2-sided) (2-sided) (1-sided) 





Pearson Chi-Square 


Continuity Correction* 


Likelihood Ratio 


Fisher's Exact Test 
N of Valid Cases 














a. Computed only for a 2x2 table. 
b. Ocells (.096) have expected count less than 5. The minimum expected count is 24.32. 


结果 6-3 Chi-Square Tests 结果 


3» Chi-Square Tests 说 明 


Value 号 检 验 统计 值 
: V6df = B Ë 

"B Asymp. Sig. (2-sided) = XUN JE 424803 

Exact Sig. (2-sided) 一 双 侧 精确 概率 

Exact Sig. (1-sided) : = 35H 80 dc 

Pearson Chi-Square «Pearson F 7; 4& 

Continuity Correction(a) ck HEB EST 48 

“Likelihood Ratio 一 对 数 似 然 比方 法 计算 的 卡 方 

Fisher's Exact Test Fisher's 精确 概率 法 

ÆN of Valid Cases E 宇 有 效 记 录 数 . 

“Sa Computed only for a 2 x 2 table cR 2X2 表 时 才 计 算 校 正 卡 方 值 

b 0 cells (.0%) have expected count 一 说 明 格 子 期 望 频数 小 于 5 的 百分数 , 最 小 
less than 5. The minimum expected. 。” -理论 频数 为 24.32 
count is 24.32 _ ; 


H b 可 知 ， 本 例 不 需要 校正 ，Pearson Z=6.273, P-0.012; 似 然 比 卡 方 值 为 6.309, 
P=0.012, fE 0.05 检验 水 准 下 拒绝 而 ， 说 明 西 药 、 中 药 的 治愈 率 差异 有 统计 学 意义 ， 认 为 
中 药 的 治愈 率 比 西药 高 。 


6.1.2 连续 校正 卡 方 检验 


xX 分布 为 连续 性 分 布 ， 但 一 般 用 于 x” 检验 的 数据 为 离散 性 数据 ， 因 此 当 样 本 含量 较 
少 ， 且 有 20% 格 子 的 理论 频数 小 于 5 时 ， 则 需 采用 Yates 连续 性 校正 。 一 般 Yates 连续 性 
校正 只 用 于 四 格 表 数据 ， 当 四 格 表 数 据 的 样本 含量 n 较 大 (n 宇 40), 但 理论 频数 为 1<T<5 
时 ， 则 选用 Yates REAR. WR n=40 或 者 T<1， 则 选用 四 格 表 精 确 概 率 法 计算 结果 。 
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基本 公式 或 四 格 表 专用 公式 的 连续 性 校正 〈Correction for Continuity) ARA: 
z? yd Aj — Tij | —0.5)2 


(6-5) 
i=l j=1 Tj 
2 
gi 88 e 2) (6-6) 
RıR2C1C2 


1. 实例 描述 
冠 心病 复发 与 体育 锻炼 关系 研究 ， 结 果 见 表 6-4 ( 见 配 书 光盘 中 的 数据 
文件 data6-2.xls 或 data6-2.sav)。 问 冠 心病 复发 与 体育 锻炼 有 关系 吗 ? 关联 强度 是 多 大 ? 


表 6-4 冠 心病 初次 发 作者 参加 体育 锻炼 与 冠 心病 复发 关系 的 研究 
冠 心病 复发 状况 


wA € H 
是 否 
参加 2 62 64 
未 参加 8 42 50 
合计 10 104 114 


2. Crosstabs 过 程 的 操作 提示 
表 6-4 的 SPSS 数据 格式 如 图 6-6 所 示 。 
XX [RW ow 


1 1 1 2 
2 1 2 8 
3 2 1 62 
4 2 2 

图 6-6 SPSS 数据 格式 


如 果 变量 值 为 (中 文 ) 字符 ， 那 么 SPSS 系统 按照 英文 字母 顺序 对 变量 进行 排序 ， 不 
利于 有 序 资料 的 分 析 。 为 了 使 输出 结果 与 表 6-4 一 致 ， 可 将 属性 变量 用 数字 代替 ， 然 后 对 
每 个 数字 设置 标签 。 

如 果 需 要 在 SPSS 输出 结果 中 输出 与 表 6-4 一 致 的 表格 ， 则 可 按 如 下 步骤 进行 操作 。 

(1) 定义 变量 值 

在 Variable view 窗口 进行 变量 设置 。 

-Values =£ Values 框 右 侧 下 拉 菜 单 避 ， 弹 出 如 图 6-7 

所 示 的 对 话 框 





67 ”设置 变量 值 标签 
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按照 图 6-7 进行 变量 设置 ， 设 置 结 果 见 图 6-8。 


Width |Decimals| Label 
F = Numeric 16 0 {1, 是 } 
TERES Numeric 0 {1, 参 加 } 


count [Numeric 11 0 None 


图 6-8 定义 变量 值 








Type 






Values 





o 


(2) 定义 Crosstabs 的 Statistics 对 话 框 


“OChi-square 进行 Chi-square 检验 
ARisk | 计算 OR 值 和 RR 值 - 
Continue i zd > , 
3. 结果 解释 〈( 见 结果 6-4 和 结果 6-5) 

体育 锻炼 * 复 发 Crosstabulation 








结果 6-4 ”体育 锻炼 * 复 发 Crosstabulation 


Chi-Square Tests 





Asymp.Sig. | ExactSig. | Exact Sig. 
(2-sided) (2-sided) (1-sided) 
Pearson Chi-Square 
Continuity Correction" 
Likelihood Ratio 


Fisher's Exact Test 


Linear-by-Linear 


Association 


N of Valid Cases 














a. Computed only for a 2x2 table. 
b. 1 cells (25.096) have expected count less than 5. The minimum expected count is 4.39. 


结果 6-5 Chi-Square Tests 结果 


本 例 中 的 n2114, 实际 频 数 8 对 应 的 理论 频数 m; = 4.39<5， 因 此 选用 校正 的 卡 方 检验 
结果 ， 即 得 到 x?=4.317，P=0.038<0.05， 在 0.05 的 概率 水 平 下 拒绝 Ho， 认 为 两 组 的 复发 
率 差异 有 统计 学 意义 。 

优势 比 OR 值 是 两 个 比值 之 比 ， 比 值 即 某 因素 暴露 概率 和 未 暴露 概率 之 比 。 本 例 中 冠 
心病 复发 者 参加 体育 锻炼 的 比例 为 20%， 冠 心病 复发 者 未 参加 体育 锻炼 的 比例 为 80%， 其 
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二 者 的 比值 为 0.20/0.80=0.25; 无 冠 心 病 复发 者 参加 体育 锻炼 的 比例 为 $9.6%,， 无 冠 心病 复 


发 者 未 参加 体育 锻炼 的 比例 为 40.4%， 其 比值 为 0.596/0.404=1.48; 则 参加 体育 锻炼 冠 心病 
复发 的 优势 比 〈 参 加 /未 参加 ) 为 0.2S/1.48=0.169 〈 见 结果 6-6). 


95% Confidence Interval 





Lower Upper 


Odds Ratio for 体育 锻炼 〈 参 加 / 


未 参加 ) 

For cohort 复发 = 是 
For cohot 复发 = f 
N of Valid Cases 











结果 6-6 Risk Estimate 结果 


由 以 上 结果 可 知 ， 和 危险 度 的 估计 值 OR=0.169， 置 信 区 间 为 0.034 一 0.837， 结 论 为 冠 心 
病 初 发 者 复发 与 是 否 参加 体育 锻炼 有 关 ， 即 冠 心 病 初 发 后 进行 体育 锻炼 的 人 复发 冠 心 病 的 
危险 是 不 锻炼 的 人 0.169 倍 ， 体 育 锻炼 将 减少 83.1% 的 复发 危险 。 

另外 ， 也 可 计算 相对 危险 度 。 冠 心病 复发 的 相对 危险 度 是 参加 体育 锻炼 者 复发 的 概率 
与 未 参加 体育 锻炼 者 复发 的 概率 的 比值 ， 其 估计 值 为 3.2%/16.0%=0.195; 无 冠 心病 复发 的 
相对 危险 度 是 参加 体育 锻炼 者 复发 的 概率 与 未 参加 体育 锻炼 者 复发 的 概率 的 比值 ， 其 估计 
值 为 96.8%/84.0%=1.153; 说 明 参 加 体育 锻炼 复发 冠 心病 的 危险 是 未 参加 体育 锻炼 者 的 
0.195 倍 ， 不 发 生 冠 心病 复发 的 概率 是 未 参加 体育 锻炼 者 的 1.153 倍 。 

一 般 来 说 ， 相 对 危险 度 较 优势 比 好 解释 ， 大 多 数 情况 下 将 优势 比 按照 相对 危险 度 的 含 
义 来 解释 。 相 对 危险 度 多 用 于 前 瞻 性 的 资料 ， 而 优势 比 用 于 回顾 性 的 资料 ， 当 事件 发 生 概 
率 比较 小 〈 小 于 0.1) 时 ， 优 势 比 可 作为 相对 危险 度 的 估计 值 。 


6.2 Hx C 无 序列 联 表 的 卡 方 检验 


四 格 表 的 基本 数据 只 有 两 行 两 列 ， 对 于 多 于 两 行 两 列 的 情况 ， 统 称 为 行 x 列 表 或 称 列 
联 表 (Contingency Table)， 简 记 为 RxC 表 。 四 格 表 是 最 简单 的 行 x 列 表 形 式 ， 行 x 列表 x 
检验 的 基本 原理 及 计算 ?的 基本 公式 与 四 格 表 ?检验 相同 。 行 x 列表 的 ?检验 主要 用 于 解 
决 多 个 样本 率 的 比较 ， 样 本 构成 的 比较 ， 以 及 定性 资料 的 关联 性 分 析 。 在 行 x 列 表 中 计算 
各 格子 的 理论 频数 是 件 烦琐 的 事 ， 由 公式 (6-1) 可 推导 出 以 下 用 于 行 x 列表 计算 儿 值 的 公 
式 。 


i=] j=1 


公式 (6-7) 中 的 符号 意义 同 公式 (6-1), KBIBEv z(R-1)(C-1). 


2 R C Aó 
X ub (6-7) 
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与 统计 分 


6.2.1 多 个 样本 率 的 卡 方 检验 


1. 实例 描述 

随机 抽取 某 市 三 个 地 区 ， 调 查 60 岁 以 上 老年 人 高 血压 患 病情 况 ， 结 果 
见 表 6-5〈 见 配 书 光盘 中 的 数据 文件 data6-3.xls 或 data6-3.sav)。 问 三 个 区 的 老年 人 高 血压 
患 病 率 有 无 差别 ? 


表 6-5 某 市 三 个 地 区 的 60 岁 以 上 老年 人 高 血压 患 病情 况 


m 高 血压 
行政 区 一 合计 
有 X 
H 316 940 1256 
Z 252 830 1082 
两 340 1264 1604 
合计 908 3034 3942 


检验 假设 : 

Ho: 三 个 地 区 高 血压 患 病 率 相 同 ; 

Hi: 三 个 地 区 高 血压 患 病 率 不 相同 或 不 全 相同 ; 

a=0.05。 

2. Crosstabs 过 程 的 操作 提示 见 6.1.2 节 
结果 解释 〈 见 结果 6-7 和 结果 6-8) 


地 区 * 高 血压 Crosstabulation 





Count 


% within 地 区 


Count 

% within Hh ø 
Count 

% within 地 区 
Count 


% within 地 区 











结果 6-7 地 区 * 高 血压 Crosstabulation 


= Crosstabulation 说 明 


Count 一 每 个 格子 中 的 频数 
B% within 地 区 一 列 变量 是 否 患 有 高 血压 在 行 变量 每 个 地 区 中 的 百分比 
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名 义 分 类 数据 的 统计 推断 EROR 


Chi-Square Tests 


Asymp. Sig. 
Value df (2-sided) 


2 .043 
2 .043 
1 .012 


a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 249.23. 






Pearson Chi-Square 
Likelihood Ratio 
Linear-by-Linear Association 
N of Valid Cases 












结果 6-8 Chi-Square Tests 结果 


三 个 地 区 的 60 岁 以 上 老人 高 血压 患 病 率 分 别 为 25.2%，23.3% 和 21.2%, Pearson Ë Jy 
为 6.293，P=0.043， 在 a=0.05 水 平 下 拒绝 Ho， 认 为 三 个 地 区 的 60 岁 以 上 老人 高 血压 患 病 
率 间 的 差异 有 统计 学 意义 。 

进行 多 组 独立 样本 的 x? 检 验 ， 拒 绝 Ho 只 能 说 明 各 组 的 总 体 概率 不 全 相同 ， 即 多 组 中 
至 少 有 两 组 的 概率 不 同 ， 若 要 知道 哪 两 组 间 不 同 ， 需 进一步 做 多 组 间 的 两 两 比较 。 本 例 有 
3 组 ， 可 进行 3 种 对 比 ， 做 3 个 四 格 表 X 检验 ， 如 果 直 接 做 3 次 四 格 表 x 检验， 将 增 大 
I 类 错误 的 机 会 ， 为 此 在 进行 多 组 率 的 两 两 比较 时 ， 需 根据 比较 的 次 数 修正 检验 水 准 。 多 
组 进行 比较 时 a=0.05， 进 行 3 次 3 组 间 的 两 两 比较 ， 其 两 两 比较 的 检验 水 准 为 
Q=0.05/3=0.0167。 当 例 数 较 少时 则 应 计算 精确 概率 。 


6.2.2 多 个 样本 构成 的 卡 方 检验 


1. 实例 描述 

Ld 2002 年 某 市 某 区 妇幼 保健 院 对 该 区 幼儿 园 4—6 岁 儿 童 视 力 进行 筛 查 ， 
结果 见 表 6-6〈 见 配 书 光盘 中 的 数据 文件 data6-4.sav 或 data6-4.xls)。 问 不 同年 龄 的 儿童 视 
力 健康 状况 构成 比 是 否 有 差异 ? 


表 6-6 4—6 岁 儿 童 视 力 筛 查 情况 
异 常 可 BE IE 常 
人 数 比例 Coo) 人 数 比例 (%) 人 数 . EA COD 


年 龄 ( 岁 ) 被 查 人 数 


4 300 37 12.33 58 19.33 205 68.33 
5 1311 104 7.93 236 18.00 971 74.07 
6 1329 42 3.16 297 22.35 990 74.49 
合计 2940 183 6.22 591 20.10 2166 73.67 


检验 假设 : 
依据 题 意 ， 本 资料 需 分 析 两 组 的 构成 比例 间 有 无 差异 。 
Ho: 三 组 的 总 体 构成 相同 ; 
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Hi: 二 组 的 总 体 构成 不 相同 或 不 全 相同 ; 
a-0.05. 


2. Crosstabs 过 程 的 操作 提示 见 6.1.2 $ (BÆ Cell Display 对 话 框 中 选择 
了 行 百 分 数 ) 
3. 结果 解释 〈 见 结果 6-9 和 结果 6-10) 


年 龄 + 视力 健康 Crosstab 


ulation 
视力 健康 
o perpe [ue ne 
37 58 205 300 
104 236 971 1311 
42 297 990 
3.296 22.395 | 74.5% 100.0% 


183 591 2166 2940 
6.2% 20.1% 73.7% 

























Asymp. Sig. 
Value (2-sided) 


Pearson Chi-Square 51.790* 4 .000 
Likelihood Ratio 51.736 4 .000 
N of Valid Cases 2940 


a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 18.67. 


结果 6-10 Chi-Square Tests 结果 






Pearson 卡 方 值 为 51.790，P=0.000， 在 a=0.05 水 平 下 拒绝 Hu6， 认 为 不 同年 龄 的 儿童 
视力 健康 状况 构成 比 差异 有 统计 学 意义 。 

4. 行 X 列 表 x? 检验 的 注意 事项 f 

OD xX 检验 要 求 理 论 频数 不 能 太 小 ， 否 则 导致 分 析 的 偏 性 。 在 行 x 列 表 中 一 般 不 宜 有 
20% 以 上 的 格子 的 理论 频数 小 于 5, 或 者 有 一 个 理论 频数 小 于 1。 对 理论 频数 太 小 的 情况 有 
三 种 处 理 方法 : 

° 最 理想 的 方法 就 是 增加 样本 含量 来 增 大 理论 频数 ; 

e° 删除 理论 频数 太 小 的 行 或 列 ， 

° 将 太 小 的 理论 频数 的 行 或 列 与 相 邻 的 行 或 列 进行 合并 , 但 要 注意 合并 行 或 列 的 性 质 

要 相同 或 相近 ， 使 合并 的 行 或 列 的 理论 频数 增 大 。 
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后 两 种 增加 理论 频数 的 方法 可 能 损失 一 定 的 信息 ， 也 会 损害 样本 的 随机 性 ， 不 同 的 合 
并 方式 有 可 能 影响 统计 推论 ， 一 般 不 作为 常用 方法 。 

(2) 多 个 样本 率 或 样本 构成 比 的 籽 检验 ， 结 论 是 拒绝 检验 假设 ， 只 能 认为 总 体 上 有 差 
异 ， 并 不 能 认为 各 样本 率 或 构成 比 之 间 彼 此 有 差异 。 要 想 知 道 哪 两 个 样本 率 或 构成 比 间 有 
差异 ， 需 要 进行 行 x 列表 的 卡 方 分 割 。 对 行 x 列表 进行 分 割 Xx” 检验 时 ， 应 注意 两 点 : 

° 行 x 列表 分 割 的 目的 是 分 析 表 中 的 差异 , 所 以 分 割 过 程 应 参考 表 中 各 格子 中 的 比例 ， 

用 以 指导 分 割 的 具体 方式 ; 

° 行 x 列 表 中 每 个 格子 的 观察 频数 只 能 在 分 割 表 中 出 现 一 次 。 

(3) 对 于 单 向 有 序 行 x 列 表 资 料 的 统计 分 析 处 理 ， 如 果 只 需 考 虑 各 处 理 组 间 效 应 的 构 
成 差异 , 则 可 采用 y^ 检验 ; 如 果 需 要 分 析 各 处 理 组 间 效 应 的 变化 趋势 , 则 一 般 不 宜 采 用 x? 
检验 ， 大 多 数 情况 下 应 该 采用 下 一 章 所 要 介绍 的 秩 和 检验 方法 。 


6.3 Fisher's 精确 检验 


6.3.1 四 格 表 的 精确 概率 法 


在 四 格 表 x^ 检验 中 ， 若 有 理论 频数 小 于 1, 或 者 n=40 时 ,尤其 是 用 其 他 检验 方法 计 
算得 到 的 概率 接近 检验 水 准时 ， 则 需 采 用 四 格 表 精确 概率 法 (Exact Probabilities in 2x2 
Table)。 本 方法 并 不 属于 XX 检验 的 内 容 ， 但 可 作为 四 格 表 Xx? 检验 应 用 的 补充 。 

四 格 表 精确 概率 法 的 基本 思想 : 在 四 格 表 周边 合计 不 变 的 条 件 下 ， 用 公式 〈6-8) 可 直 
接 计 算出 表 内 4 个 数据 在 各 种 组 合 下 的 概率 。 

PP (6-8) 

因 四 格 表 的 自由 度 为 1， 在 计算 各 种 组 合 时 ， 只 需 依 次 增 减 四 格 表 中 任何 一 个 格子 的 
数据 ， 便 可 得 到 周边 合计 不 变 条 件 下 的 各 种 组 合 的 四 格 表 。 将 小 于 等 于 原 四 格 表 概率 的 所 
有 四 格 表 对 应 的 概率 相 加 ， 其 和 即 为 双 侧 概率 。 包 含 原 四 格 表 概 率 在 内 ， 原 表 以 左 为 左 侧 
概率 ， 以 右 为 右 侧 概率 。 单 侧 概 率 一 般 为 左右 侧 概 率 较 小 者 。 

1. 实例 描述 

比较 两 种 药物 的 驱 虫 疗效 , 对 45 名 患者 进行 治疗 ,其 结果 见 表 6-7 ( 见 
配 书 光盘 中 的 数据 文件 data6-5.xls 或 data6-5.sav)。 问 两 种 药物 的 驱 虫 疗效 有 无 差异 ? 


表 6-7 两 种 药物 的 驱 虫 疗效 对 比 结果 
药物 MAAM 未 治愈 人 数 总 人 数 


甲 药 6 1 7 
乙 药 3 8 11 
合计 9 9 18 
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ESE: ira — 


检验 假设 : 

CD 依据 题目 给 定 的 条 件 ， 样 本 的 n<40， 本 例 需 用 四 格 表 的 精确 概率 法 计算 。 
Ho: 41275; 

Hi: mi £75; 

0 —0.05. 

(2) 按 公式 〈6-8) 计算 各 种 组 合 四 格 表 的 P 值 ( 见 表 6-8)。 


表 6-8 不 同 的 组 合 及 相应 的 概率 


a b c d p 

0 7 9 2 0.001131 
1 6 8 3 0.023756 
2 5 7 4 0.142534 
3 4 6 5 0.332579 
4 3 5 6 0.332579 
5 2 4 7 0.142534 
7 0 2 9 0.001131 


其 双 侧 P 值 为 满足 小 于 等 于 原 四 格 表 概率 的 所 有 四 格 表 概 率 之 和 ,本 例 原 表 的 概率 为 
0.2676， 所 以 双 侧 己 值 为 〈0.0011+0.2376) X2=0.0498。 

(3) P (& fir 0.05=0.0498， 按 w = 0.05 水 平 拒绝 而 ， 认 为 甲 药 、 乙 药 疗效 差异 有 统计 
学 意义 。 

2. Crosstabs 过 程 的 操作 提示 
a 操作 提示 

(1) 定义 “count” 为 频数 变量 。 

(2) 选择 Crosstabs 过 程 。 

(3) 定义 Crosstabs 过 程 。 


Row [>] Drug SAIRE: Drug 


Column [> | result x Sik AJP] £ 32: result 
“Statistics... PB Statistics 对 话 框 
Chi-square 全 进行 Chi-square 检验 
Continue 

(4) 定义 精确 概率 计算 过 程 ( 见 图 6-9)。 

"BExact... = 3- Exact 按钮 

DO Exact 号 选择 Exact 过 程 


M Time limit pertest 5 minutes ”号 限 制 每 次 计算 的 时 间 
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# yx ENCOE3 


Continue cdd Continue dan 
BOK 二 执行 Crosstabs s 过 程 





Exact Tests 
C Asymptotic only 
C Monte Carlo 
Confidence level: 
Number of samples: 而 pru 
€ xai 
FV Time limitpertest — [5 — Tinules 


Exact method will be used instead of Monte Carlo when 
ional limits allow. 


For nonasymptotic methods. cell counts are always rounded 
or truncated in computing the test statistics. 





图 6-9 选择 精确 概率 计算 法 


3. 结果 解释 (MAR 6-11 和 结果 6-12) 


drug * result Crosstabulation 









Exact Sig. 
(2-sided) 









Pearson Chi-Square 
Continuity Correction* 
Likelihood Ratio 





Fisher's Exact Test 


N of Valid Cases 














a. Computed only for a 2x2 table. 
b. 2 cells (50.096) have expected count less than 5. The minimum expected count is 3.50. 
c. For 2x2 crosstabulation, exact results are provided instead of Monte Carlo results. 


结果 6-12 Chi-Square Tests 结果 


由 于 nm<40， 所 以 采用 四 格 表 精 确 概率 法 计算 ， 得 出 概率 为 0.050。 
结论 : 按 w=0.05 水 平 拒绝 Ho， 认 为 甲 药 、 乙 药 疗 效 差异 有 统计 学 意义 。 
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6.3.2 HxC 列 联 表 精 确 概率 

1. 实例 描述 

肝 动 脉 介入 治疗 加 ( 减 ) 全 身 化 疗 治疗 转移 性 肝癌 的 临床 观察 结果 如 表 
所 6-9 示 ( 见 配 书 光盘 中 的 数据 文件 data6-6.xls 或 data6-6.sav)。 试 比较 两 种 治疗 方法 的 疗 
效 差异 是 否 有 统计 学 意义 ? 


表 6-9 不 同方 法 治疗 转移 性 肝癌 比较 


疗效 合 

UIE = . 
无 效 中 效 显效 计 
介入 加 化 疗 12 4 9 25 
静脉 化 疗 3 8 1 12 
合计 15 12 10 37 


检验 假设 : 

Ho: 两 种 疗法 治疗 转移 性 肝癌 疗效 相同 ; 

Hi: 两 种 疗法 治疗 转移 性 肝癌 疗效 不 相同 ; 

a=0.05. 

2. Crosstabs 过 程 的 操作 提示 

Data — Weight Cases... — Weight ”定义 频数 变量 count 


Cases by[*] Frequency Variable: 
Analyze — Descriptive statistic ”选择 Crosstabs 过 程 

— Crosstabs... Ç H 
"bRow [>] 治疗 方法 “所 选 入 行 变量 : 治疗 方法 
“Columns y] 疗效 2o ”= 远 入 列 变量 : nx 
"Statistics... ， ERI Statistics 对 话 框 
-BEZIChi-square à 一 进行 Chi-square 检验 
-Continue | zi 
"BExact e HA 
"6 Monte Carlo icc 一 选择 蒙特 卡 罗 模拟 方法 计算 精确 概率 
Confidence level po | % = RL 99% J 4š É I8] È HS] 
“Number of samples 全 定义 随机 抽样 的 次 数 
Continue 


X 6-9 中 由 于 三 个 格子 理论 频数 小 于 5， 最 小 的 理论 频数 为 3.24， 因 此 ， 需 要 计算 精 
确 概 率 。 样 本 含量 较 大 时 ，RXC 列 联 表 精 确 概率 的 计算 较 费 时 ,往往 需 要 限定 时 间 ， 如 5 
分 钟 。 这 种 情况 下 ， 一 般 可 采用 蒙特 卡 罗 模 拟 方法 来 代替 。 
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名 义 分 类 数据 的 统计 推断 


3. 结果 解释 〈( 见 结果 6-13 和 结果 6-14) 
治疗 方法 * 疗效 Crosstabulation 


Count 





治疗 — 介入 加 化 疗 
静脉 化 疗 








结果 6-13 ”治疗 方法 * 疗效 Crosstabulation 


Chi-Square Tests 





Asymp. Sig. 
(2-sided) Monte Carlo Sig. (2-sided) 





99% Confidence Interval 





Lower Bound Upper Bound 


Pearson Chi-Square 


Likelihood Ratio 


Fisher's Exact Test 











N of Valid Cases 








a. 3 cells (50.0%) have expected count less than 5. The minimum expected count is 3.24. 
b. Based on 10000 sampled tables with starting seed 2000000. 


结果 6-14 Chi-Square Tests 结果 


3» Chi-Square Tests 说 明 


Monte Carlo Sig. (2-sided) 一 蒙特 卡 罗 双 侧 概率 

“sig. 00 SHARE 

489995 Confidence Interval — |. =99%"*T4š É lš] 

Lower Bound —Ç cR 

Upper Bound = FIR 

“Öb. Based on 10000 sampled tables with 一 以 起 始 种 子 数 为 2000000， 进 行 10000 
starting seed 2000000. 次 随机 抽样 的 结果 


图 6-23 中 增加 了 蒙特 卡 罗 模 拟 方法 计算 的 精确 概率 。Pearson 卡 方 计 算出 来 的 近似 概 
率 为 0.008， 而 蒙特 卡 罗 模 拟 方法 计算 的 精确 概率 为 0.005，99% 可 信 区 间 为 0.004 一 0.009， 
可 以 认为 两 种 治疗 方法 的 疗效 有 显著 性 差异 。 

蒙特 卡 罗 方 法 是 一 种 随机 抽样 的 过 程 ， 系 统 会 自动 设置 起 始 随机 种 子 ， 不 同 种 子 得 到 
的 结果 会 有 差别 。 本 例 的 起 始 种 子 数 为 2000000， 为 了 得 到 同样 的 结果 ， 可 以 事先 设置 起 
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DN 与 统计 分 析 — 
始 种 子 数 为 2000000( 见 图 6-10) > 


a 操作 提示 
“Transform : 一 数据 转换 菜单 
“Random Number Generators 一 产生 随机 数 


Active Generator Initialization e UP NA S E 
“FI Set Starting Point 一 选择 起 始 随机 种 子 数 0 
Value BE000000 — .— |] — = 固定 值 为 2000000 


| Active Generator 
(7 ethic gore 
| V. Set Starting Point 


| € Random 
| FinedValue 
Value: — [2000000 


Current Active Generator SPSS 12 Compatible 


QM eiie nto iah et ontohne 
sessions. 





图 6-10 选择 蒙特 卡 罗 抽 样 方法 计算 概率 


SEED = 2000000， 即 系统 设 定 起 始 随机 种 子 值 为 2000000。 
结论 : 蒙特 卡 罗 方 法 计算 的 P=0.007， 可 信 区 间 为 0.004 一 0.009， 按 a=0.05 的 检验 水 
准 ， 拒 绝 Ho Z Hi1， 所 以 认为 静脉 化 疗 与 介入 加 化 疗 治疗 转移 性 肝癌 疗效 有 差异 。 
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有 序数 据 的 统计 推断 


实践 中 ， 一 些 分 类 变量 往往 会 有 顺序 、 大 小 、 程 度 的 性 质 ， 统 计 学 上 称 这 类 分 类 变量 
为 有 序 分 类 变量 (Ordered Variable) 或 半 定 量 数据 ， 或 等 级 数据 (Ranked Data)， 如 临床 
的 疗效 、 疾 病 的 分 期 、 症 状 严重 程度 的 分 级 等 。 上 一 章 已 对 名 义 分 类 变量 的 列 联 表 数 据 的 
籽 2 检验 进行 了 介绍 ， 一 般 的 米 检验 没有 考虑 资料 的 “等 级 “程度 人 “ 优 劣 ” 等 性 质 ， 而 
对 于 有 序 分 类 变量 的 统计 推断 ， 一 般 应 采用 秩 和 检验 等 基于 秩 次 的 非 参 数 方法 ， 而 不 能 采 
用 一 般 的 ?检验 。 本 章 首先 介绍 独立 样本 单 向 有 序 和 双向 有 序列 联 表 数 据 的 统计 学 分 析 方 
法 ， 然 后 介绍 相关 样本 的 有 序 分 类 资料 的 统计 学 分 析 方 法 。 


7.4 Rx C 单 向 有 序列 联 表 的 检验 


单 向 有 序列 联 表 是 指 有 一 分 类 变量 〈 行 变量 或 列 变量 ) 为 有 序 尺 度 类 别 ， 另 一 变量 为 
名 义 尺 度 类 别 。 对 于 此 类 表格 数据 主要 采用 非 参 数 检验 方法 ， 其 基本 分 析 程 序 为 : 首先 对 
有 序 变量 的 各 个 分 类 水 平 选 择 一 个 合适 的 量化 得 分 值 ， 然 后 用 所 赋予 的 得 分 值 替 代 原 有 的 
分 类 ， 在 新 的 得 分 频数 表 数 据 基础 上 进行 统计 学 分 析 。 

两 个 独立 样本 单 向 有 序列 联 表 资料 的 非 参数 检验 方法 主要 有 Wilcoxon 秩 和 检验 ， 另 
外 也 可 进行 趋势 x 检验 ， 多 个 独立 样本 的 单 向 有 序列 联 表 资 料 的 非 参数 检验 方法 主要 有 
Kruskal-Wallis H 检验 、 中 位 数 (Median) 检验 和 Jonckheere-Terpstra 检验 。Kruskal-Wallis 
H 检验 不 依赖 总 体 分布 ， 检 验 多 个 样本 在 中 位 数 上 是 否 有 差异 ， 中 位 数 检验 法 用 于 检验 多 
个 样本 是 否 来 自 具有 相同 中 位 数 的 总 体 ,3 种 方法 中 它 的 检验 效能 最 低 ,Jonckheere-Terpstra 
检验 法 用 于 检验 多 个 独立 样本 是 否 来 自 相 同 总 体 ， 并 且 当 分 组 变量 也 为 有 序 分 类 资料 〈 双 
向 有 序 ) 时 ， 此 法 的 检验 效能 要 高 于 Kruskal-Wallis 法 。 


7.1.1 Wilcoxon 秩 和 检验 
对 于 2xC 单 向 有 序列 联 表 , 通常 可 以 进行 两 个 独立 样本 分 布 位 置 相同 的 假设 检验 一 一 


DN 与 统计 分 析 


Wilcoxon 秩 和 检验 (Wilcoxon rank sum test)， 以 检验 两 个 总 体 分 布 是 否 有 差异 。 其 检验 假 
设 为 : 

Ho: 两 个 总 体 分 布 的 位 置 相同 ， 即 Ma=Mo; 

Hi: 两 个 总 体 分 布 的 位 置 不 同 ， 即 Ma Mp 
% SPSS 操作 提示 


3-3: Analyze—Nonparametric Tests—2 Independent Samples .-.， 调 用 非 参数 检验 模块 中 
的 两 个 独立 样本 过 程 ( 见 图 7-1 )。 


Grouping Variable: 


CJ [aa 一 一 
PE 


Test Type 1 
ÍV Mann-Whitney U I Kolmogorov-Smimov Z 
T^ Moses extreme reactions = wald'Woltowitz runs 


图 7-1 选择 Mann-Whitney U 检验 





(1) 图 7-1 中 的 操作 提示 


Test Variable List [>] 先入 测试 (结果 ) 变量 

-Grouping Variable [P] ik 

Define Groups... ; U =š iB Define Groups... 对 话 框 ( 见 图 7-2) 
Two Independent Samples... 

Group 1: 0 ` 20 9X3 —m 34 

-Group 2: 1 定义 第 二 组 变量 值 


Two Independent | 


Group 1: b 


Gop2 [f 





图 7-2 定义 各 组 的 变量 值 
(2) 从 Test Type 复 选 框 组 选择 非 参 数 检验 方法 


“BT Mann-Whitney U =Mann-Whitney U 为 系统 默认 方法 ,用 于 两 个 样 
本 秩 和 检验 , 同时 输出 Wilcoxon 秩 和 检验 结果 

DK Kolmogorov-Smimov Z 一 检验 两 个 独立 样本 是 否 来 自 同一 总 体 

DM Moses extreme reactions = 3 EC F| By GEAR o 5 4B BP HR 65 27 3- 
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DM Wald-Wolfowitz runs 呈 检 验 两 个 样本 所 在 总 体 的 任 一 点 分 布 情况 是 否 
相同 ， 属 于 游程 检验 的 一 种 : 
(3) 其 他 选项 
"Options... .. =T F Options... 对 话 框 
Statistics 复 选 框 一 选择 输出 统计 量 
OM Descriptive 一 输出 描述 统计 量 ， 包 括 均 数 、 最 小 值 、 最 大 值 、 
"BE Quartiles ”= 输出 四 分 位 数 
Missing Values 一 选择 处 理 缺 失 值 方法 
"B OExclude cases test-by-test = # X 824 AIRE ARBOR,  Fl5 2 
GUIAS ICGORACTOUR RI 
OExclude cases listwise 一 在 所 有 分 析 中 均 去 除 有 缺失 值 的 记录 ， 不 同 的 
分 析 过 程 去 除 的 缺失 记录 数 可 以 相同 


1. 实例 描述 
研究 者 欲 了 解 某 种 皮肤 病 的 皮 损 程 度 对 疗效 的 关系 , 对 196 名 皮肤 病 患 
者 进行 了 观察 ， 结 果 见 表 7-1 ( 见 配 书 光盘 中 的 数据 文件 data7-1.xls 或 data7-1.sav， 枚 举 


皮 损 程度 (damage) 的 轻 度 、 重 度 分 别 为 0, 1 )。 


表 7-1 皮肤 受 损 程度 与 疗效 
疗 A 





皮 损 程度 合计 
显效 中 效 微 效 无 效 恶化 

轻 度 11 27 42 53 11 144 

重度 7 15 16 13 1 52 

合计 18 42 58 66 12 196 





检验 假设 : 

Ho: 不 同 皮 损 程 度 疗效 的 总 体 分 布 相同 ; 

Hi: 不 同 皮 损 程 度 疗效 的 总 体 分 布 不 同 ; 

G=0.05. 

2. 操作 提示 

单 击 Analyze 一 Nonparametric Tests 一 2 Independent Samples ..., 调用 非 参 数 检验 模块 中 
的 两 个 独立 样本 过 程 。 

Test Variable List [>] level 全 选 入 测试 变量 : level 

Grouping Variable [>] damage 一 选 入 分 组 变量 : damage 

Define Groups... S$ i Define Groups... 对 话 框 
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与 统计 分 


Group 1: 0 > 字 定 义 第 一 组 变量 值 为 0 

Group 2: 1 呈 定 义 第 二 组 变量 值 为 1 

Continue 
“Test type 选择 检验 方法 

回 Mann-Whitney U apasqa, U, T Pi w ra 
-OK x z : 


.结果 解释 〈 见 结果 7-1 和 结果 7- 2) 
Su d M 包括 组 别 、 样 本 数 、 平 均 秩 次 (Mean Rank), £& 
ZH fI (Sum of Ranks )。 轻 度 皮 损 的 秩 和 为 13313， 重 度 皮 损 的 秩 和 为 5993。 


Test Statistics? 


Ranks [ lee | 
Mann-Whitney Ú 2873.000 
mars Sum of Ranks á 


Wilcoxon W 13313.000 
level 13313.00 Z -2.583 
5993.00 






Asymp. Sig. (2-tailed) .010 
a. Grouping Variable: damage 


结果 7-1 Mann-Whitney Test 结果 结果 7-2 Test Statistics 结果 


Mann-Whitney U 检验 两 个 总 体 分 布 的 中 心 位 置 是 否 相 同 , 其 检验 假设 是 : 如 果 两 个 总 
体 分 布 的 中 心 位 置 相同 ， 则 两 个 样本 中 各 数据 的 秩 次 都 应 当 围绕 着 平均 秩 次 均匀 分 布 。 与 
Wilcoxon 秩 和 检验 原理 相似 。 本 例 Mann-Whitney U 统计 量 为 2873，Wilcoxon W 统计 量 
为 13313, WEES DMAE ZE CBI u E) 为 -2.583, 近似 概率 值 ( 双 侧 ) 为 0.010<0.05， 
拒绝 Ho， 认 为 轻 度 和 重度 皮 损 的 疗效 总 体 分 布 不 同 。 


7.1.2 ”趋势 x 检验 
表 7-1 中 数据 的 行 变量 为 二 分 类 变量 ， 列 变量 为 自然 顺序 的 等 级 分 类 变量 ， 可 选用 


Crosstabs 过 程 中 的 线性 关系 (Linear-by-Linear Association) 统计 量 ， 采 用 趋势 ?检验 进行 
分 析 。 


1. 实例 描述 〈 见 例 7-1) 


表 7-2 显效 到 恶化 其 重度 比例 趋势 


皮 损 程度 显效 中 效 微 效 无 效 恶化 合 计 
轻 度 11 27 42 53 11 144 
k 
重度 ( aj ) 7 15 16 13 1 >a =52 
ja 
E k 
合计 (nj ) 18 42 58 66 12 N - Yn; =196 
ja 
重度 比例 ( pj =aj/nj ) 0.38889 0.35714 0.27586 0.19697 0.08333 P = 0.265306 
得 分 值 ( x; ) 3 2 1 0 -1 q = 0.734694 
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将 表 7-1 的 皮 损 程度 与 疗效 数据 重新 整理 为 表 7-2， 按 表达 式 pj = wj In; 计算 每 列 中 
重度 皮 损 的 比例 列 于 表 中 。 由 表 7-2 可 见 ， 从 疗效 的 显效 到 恶化 ， 该 比例 显示 其 重度 比例 
逐渐 下 降 的 趋势 。 现 采用 趋势 巡 检 验 来 检验 “重度 皮 损 的 比例 无 趋势 ”的 假设 。 

趋势 x 检验 实质 是 检验 以 上 重度 比例 Cp; =a /nj ) 与 得 分 值 Cx) 之 间 的 回归 系 
数 是 否 为 零 。 在 此 ， 计 算 回 归 系 数 的 方法 与 一 般 回 归 分 析 相 同 ， 唯 一 的 区 别 在 于 用 各 列 的 
合计 (nj; ) 进行 加 权 计 算 ( 参 见 第 8 章 的 “加 权 的 简单 线性 回归 ”一 节 )。 

2. Crosstabs 过 程 的 操作 提示 

趋势 x? 检 验 在 SPSS 中 采用 Crosstabs 过 程 实现 ， 其 说 明 见 第 6 音 。 


a 操作 提示 
( 1 ) 选择 Crosstabs 过 程 。 
(2) 定义 Crosstabs 过 程 。 


-ROW [>] damage u 一 选 入 行 变 量 : damage 
“Column [>] level 一 选 入 列 变量 : level 
“Statistics... 一 弹出 Statistics 对 话 框 
他 四 Chi-square 一 进行 Chi-square 检验 
DO Exact c ik4f Exact it 4£ 

MI Time limit per test | 5 | minutes c FRA] 4 Je p 3E 65 Bf Ia] 


ik: 由 于 有 2 个 格子 的 理论 频数 小 于 5， 所 以 选择 计算 精确 概率 法 。 


结果 解释 〈 见 结果 7-3 和 结果 7-4) 


damage * level Crosstabulation 





1 x Pa T MT ET a 
ne. 
mum 1 I 42 1 : 
5 
Total 1 : 1 : E 


结果 7-3 damage*level Crosstabulation 






以 上 结果 显示 为 数据 列表 形式 ， 行 变量 为 二 分 类 名 义 变量 ， 列 变量 为 有 序 分 类 变量 ， 
其 中 数据 与 表 7-1 数据 相同 。 


Chi-Square Tests 


Value 2-sided 2-sided l-sided) | Probabili 
Association 


8819 .142 42 
.122 
3 .010 
N of Volid Coses 


9.2 cells (20.0%) hove expected count less thon 5. The minimum expected count is 3.18. 
b. The standardized statistic is 2.575. 


结果 7-4 Chi-Square Tests 结果 










Pearson Chi-Square 
Likelihood Ratio 
Fisher's Exact Test 
Linear-by-Linear 
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Pearson 卡 方 统计 量 为 6.881，P=0.142, 可 见 单 从 疗效 构成 上 看 不 出 统计 学 差异 。 趋势 
gy S ETE (Linear-by-Linear Association) 为 6.632, 近似 P=0.010， 精 确 概 率 为 0.011, 
在 检验 水 准 为 0.05 时 ， 拒 绝 Ho， 因 此 可 认为 皮 损 程度 与 疗效 间 存 在 线性 趋势 。 


7.1.8 Kruskal-Wallis 检验 


Kruskal 和 Wallis 在 1952 年 设计 了 一 种 类 似 Wilcoxon 秩 和 检验 的 方法 , 以 进行 多 个 独 
立 样本 比较 的 非 参 数 检验 ， 又 称 为 K-W 检验 或 HH 检验。 该 检验 的 目的 是 推断 多 组 样本 分 
别 代表 的 总 体 分 布 是 否 不 同 。 Kruskal-Wallis H 检验 既 可 用 于 观察 指标 是 连续 型 变量 但 不 满 
足 方差 分 析 条 件 的 资料 ， 也 可 用 于 观察 指标 是 有 序 分 类 变量 的 资料 。 

基本 原理 : 该 方法 与 总 体 具体 是 什么 分 布 无 关 ， 将 多 组 样本 混合 起 来 按 大 小 编 秩 ， 计 
算 每 组 的 平均 秩 和 , 比较 各 组 分 布 的 中 心 位 置 是 否 不 同 .Mann-Whitney U X Kruskal- Wallis 
H 在 两 个 样本 时 的 特例 。 

1. 基本 步骤 

D 建立 检验 假设 ， 确 定 检验 水 准 o。 

Ho: 大 个 总 体 分 布 函数 相同 ; 

Hi: 天 个 总 体 中 至 少 有 两 个 总 体 分 布 函数 不 同 ; 

0=0.05。 

(2) 编 秩 : 将 RA Ci 数据 的 多 组 样本 混合 起 来 按 大 小 编 秩 , 计算 每 组 的 平均 秩 和 各 组 
的 秩 和 。 

Es m (21,2, =, k) (7-1) 
j=l 


其 中 ，Ri 为 第 i 组 第 j 个 样本 的 秩 次 。 





K-W 检验 的 检验 统计 量 为 : 
k 
PEE xen (722) 
当 出 现 相同 秩 次 Cie) 时 取 平 均 秩 次 。 在 相同 秩 次 较 多 的 情况 下 ， 校 正 公式 为 : 
H 
H.=— (7-3) 


3 £f, 
jep, co1- 246712 , Lg Q=1,2, «0 MARERA n=n +n. 
n —n 


2. SPSS 操作 提示 
单 击 Analyze Nonparametric Tests k Independent Samples ...; 调用 非 参 数 检验 模块 中 
的 多 个 独立 样本 过 程 〈《 见 图 7-3). 


= JEX k Independent Samples … 过 程 操作 选项 说 明 ( 见 图 7-3 ) 
Test Variable List [>] 一 选 入 测试 变量 
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“©Grouping Variable [> | 宇 选 入 分 组 变量 
Test type 复 选 杠 
DM Kruskal-Wallis H SRA J| 65 $ FEAR eA 65 3k 4615 e 
DM Median 号 中 位 数 检验 ， 检 验 效 能 最 低 
DM Jonckheere-Terpstra i 一 多 用 于 双向 有 序 变量 资料 分 析 ， 检 验 效能 
高 于 Kruskal-Wallis H 检验 


单 击 Exact... 按 钮 ， 就 会 弹出 如 图 7-4 所 示 的 对 话 框 。Exact... 与 Option... 的 选项 说 明 
与 前 面相 同 ， 在 此 不 做 描述 。 


Number of samples: [10000 


(^ Exact 
ienien. foa =Y 


Exact method will be used instead of Monte Carlo when 
computational limits allow. 





For nonasymptotic methods, cell counts are always rounded 
or truncated in computing the test statistics. 


Fd 7-3 ”选择 Kruskal-Wallis H 检验 图 7-4 选择 蒙特 卡 罗 模 拟 方法 计算 精确 概率 


7.3.4 实例 与 操作 


1. 实例 描述 
采用 三 种 手术 方法 〈A 法 为 环 状 韧带 修复 术 ，B 法 为 环 状 韧带 重建 术 ; 
C 法 为 残留 环 状 韧带 切除 后 进行 肽 模 关节 紧缩 缝合 术 ) 治疗 51 例 儿 童 陈旧 性 Monteggia’s 
骨折 的 临床 观察 结果 如 表 7-3 所 示 〈 见 配 书 光盘 中 的 数据 文件 data7-2.xls 或 data7-2.sav )。 
试 评 价 三 种 手术 的 疗效 。 
表 7-3 三 种 手术 方法 治疗 儿童 陈旧 性 Monteggia's 骨折 效果 的 分 析 
疗效 评定 


T STI. ` — n. E 
优 良 m 2 
A 法 6 9 3 1 19 
B 法 3 8 6 3 20 
C 法 2 5 4 1 12 
合计 11 22 13 5 51 


检验 假设 : 
Ho: 三 种 手术 疗效 的 总 体 分 布 相同 ; 
H: 三 种 手术 疗效 的 总 体 分 布 不 全 相同 ; 
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0=0.05。 


2. SPSS 操作 提示 

(1) 定义 “count” 为 频数 变量 (选择 菜单 Data Weight Cases… )。 

(2) 选择 固定 起 始 随机 种 子 值 〈 单 击 菜单 Transform— Random Number Generators, 
选择 Active Generator Initialization 下 的 加 Set Stating Point, 并 选中 © Fixed Value, 设置 Value 
为 2000000)。 

(3) 选择 Nonparametric Tests 过 程 。 

单 击 Analyze 一 Nonparametric Tests—>k Independent Samples ..., 调用 非 参数 检验 模块 中 
的 多 独立 样本 过 程 。 

(4) 定义 Nonparametric Tests 过 程 


Test Variable List [>] 疗效 ik A mjK E 2: 疗效 
-Grouping Variable [P] 治疗 方法 一 选 入 分 组 变量 : 治疗 方法 
Define Groups... 

Minimum: 1 号 定义 分 组 的 最 小 值 为 1 
Maximum: 3 号 定 义 分 组 的 最 大 值 为 3 
Continue : 

Test type: 选择 检验 方法 

DM Kruskal-Wallis H 一 选择 Kruskal-Wallis H 检验 方法 
DM Median 全 选择 中 位 数 检验 方法 

Exact...: 定义 Exact... 子 对 话 框 

OOMonte Carlo 号 选择 蒙特 卡 罗 模 拟 方法 计算 精确 概率 
Confidence level 69 |% e X 3. 99% 置 信 区 间 范 转 
“Number of samples 一 定义 随机 抽样 的 次 数 


3. 结果 解释 ( 见 结果 7-5 至 结果 7-8) 
SEED = 2000000， 系 统 设 定 起 始 随机 种 子 值 为 2000000。 


Ranks 


治疗 方法 
UR AN 19 


21.45 
B 法 20 29.25 
C 法 12 27.79 
Totol 51 


结果 7-5 Kruskal-Wallis Test 结果 












由 结果 7-5 可 知 ， 三 组 的 平均 秩 次 分 别 为 21.45、29.25、27.79。 
由 结果 7-6 可 知 ， 秩 和 检验 得 到 卡 方 值 CHI H fü) 为 3.263，P=0.196>0.05， 故 不 拒绝 
Ho， 尚 不 能 认为 三 种 手术 方法 治疗 儿童 陈旧 性 Monteggia's 骨折 的 疗效 差异 有 统计 学 意义 。 
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Monte Carlo Sig. 
Sig. 9996 Confidence Lower Bound 
Interval Upper Bound 


8. Based on 10000 sampled tables with starting seed 2000000. 
b. Kruskal Wallis Test 


C. Grouping Variable: 治疗 方法 
结果 7-6 Test Statistics 结果 


采用 蒙特 卡 罗 模 拟 方法 计算 得 到 的 精确 概率 P=0.196， 其 99% 置 信 区 间 为 0.186— 
0.207。 结 论 相同 。 


Frequencies 





结果 7-7 Median Test 结果 


结果 7-7 中 的 值 为 按 中 位 数 方法 计算 的 频率 值 。 
Test Statistics" 
Median 


Chi-Square 
df 


Asymp. Sig. 

Monte Carlo Sig. 

Sig. 99% Confidence Lower Bound 
Interval Upper Bound 





a. 1 celis (16.796) have expected frequencies less than 5. 
The minimum expected cell frequency is 4.2. 


b. Based on 10000 sampled tables with starting seed 2000000. 
c. Grouping Variable: 治疗 方法 


结果 7-8 Test Statistics 结果 
由 结果 7-8 可 知 ， 中 位 数 为 2， 检验 得 到 P=0.256。 因 为 中 位 数 方法 计算 出 来 的 频数 表 
中 有 1 个 格子 理论 频数 小 于 5， 因 此 采用 蒙特 卡 罗 模 拟 方法 计算 更 适合 。 蒙 特 卡 罗 模 拟 精 


确 概 率 P=0.273, 99% 置 信 区 间 为 0.262—0.285. 中 位 数 方法 的 检验 效能 低 于 Kruskal-Wallis 
H. Jonckheere-Terpstra Test， 适 用 于 拖 长 尾 的 对 称 分 布 资料 。 


| 189 


与 统计 分 


72 ”双向 有 序列 联 表 的 检验 


为 了 研究 不 同 组 别 的 有 序 结果 变量 之 间 的 差别 是 否 具有 统计 学 意义 时 ,可 将 双向 有 序 
列 联 表 视 为 单 向 有 序列 联 表 进 行 分 析 ; 若 研 究 两 个 有 序 变量 之 间 是 否 有 相关 关系 ， 就 要 用 
Spearman 秩 相 关 分 析 或 典型 相关 进行 分 析 ; 若 两 个 变量 之 间 有 相关 关系 , 并 且 想 知道 这 两 
个 变量 之 间 是 否 呈 直线 变化 关系 ， 则 需要 进行 线性 趋势 检验 ， 如 进行 Jonckheere-Terpstra 
检验 。 若 是 多 中 心 试验 的 结果 ,那么 不 同 中 心 结果 可 能 会 不 一 致 , 要 考虑 混杂 因素 的 影响 ， 
可 进行 分 层 的 多 中 心 试验 资料 的 Cochran-Mantel-Haenszel 统计 分 析 。 


7.8.1 Spearman 等 级 相关 


当 两 个 变量 是 等 级 或 半 定 量 数据 时 ， 不 宜 用 一 般 线性 相关 回归 进行 分 析 ， 而 宜 采用 
Spearman 等 级 相关 来 分 析 两 个 变量 间 的 相关 性 。 该 方法 也 可 用 于 两 个 不 呈正 态 分 布 或 不 知 
道 总 体 分 布 类 型 的 连续 性 变量 的 相关 分 析 。 等 级 相关 系数 用 六 表示 。 

1. SPSS 操作 提示 

单 击 Analyze—Correlate— Bivariate..., 进入 双 变 量 相 关 分 析 对 话 框 , 其 下 方 有 Pearson, 
Kendall's tau-b、Spearman 三 种 相关 系数 可 以 选择 。 需 要 说 明 的 其 他 选项 如 下 。 


MI Flag significant correlations 一 在 结果 中 用 星 号 标记 有 统计 学 意义 的 相关 系 
数 ， 为 默认 选项 。P<0.05 时 用 “*” 标 记 ,，P 
”0.01 时 用 “**” 标 记 
S Means and standard deviation “一 在 Options 选项 中 选择 输出 变量 的 均 数 和 标准 差 
JB Cross-product deviations and =£ Options 选项 中 选择 积 和 给 离 差 和 协 方差 
covariances 

2. 实例 描述 

检测 与 分 析 周期 素 依赖 激酶 抑制 蛋白 p16 蛋白 在 食管 癌 组 织 中 的 表达 ， 
结果 见 表 7-4。 采 用 免疫 组 化 OHC) 检测 方法 以 ABC 试剂 盒 按 常规 方法 操作 。 结 果 判 断 
以 细胞 核 及 胞 浆 内 出 现 棕 黄色 颗粒 为 阳性 ， 采 用 双 盲 法 ， 根 据 阳性 细胞 百分率 分 为 4 个 等 
级 :“-”, 无 阳性 反应 细胞 ;“+”, 阳性 细胞 <25%;“++”, 阳性 细胞 在 25%—75%2 1H]; “+++”, 
阳性 细胞 >75%〈 见 配 书 光盘 中 的 数据 文件 data7-3.xls 或 data7-3.sav )。 试 分 析 p16 表达 水 
平 与 食管 癌 临 床 分 期 的 相关 性 。 


表 7-4 P16 在 食管 癌 不 同 组 织 学 分 级 中 的 表达 
P16 表达 水 平 


组 织 学 分 级 — — F 阳性 率 % 
- 十 十 十 十 十 十 
高 分 化 (n =41) 15 5 8 13 63.4 
中 分 化 (n 226 16 3 3 4 38.5 
低 分 化 (n =17) 11 2 3 l 35.3 
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3. Bivariable Correlate 过 程 的 操作 提示 〈 见 图 7-5) 





图 7-5 选择 相关 系数 检验 方法 


(1) 定义 变量 类 型 
Variable View = 打开 变量 定义 页 面 
Type: Numeric = 本 例 两 变量 都 定义 为 Numeric ( 数值 型 ) 


单 击 Analyze 一 Correlate 一 Bivariate...， 选 择 Correlate 过 程 。 
(2) 定义 Bivariable... 过 程 


“©[?]P16 表达 水 平 SAARE: P16 表达 水 平 
Jer] 组 织 学 分 级 一 选 入 变量 : 组 织 学 分 级 
Correlation Coefficients 
MI Spearman 全 选择 Spearman 统计 量 
“Test of Significance : 
@Two-tailed 一 选择 双 侧 检验 
DM Flag significant correlations 全 在 结果 中 用 星 号 标记 有 统计 学 意义 的 相 


关系 数 ， 为 默认 选项 。P<0.05 时 用 “*” 
表示 ，P<0.01 时 用 “**” 表 示 


4. 结果 解释 〈( 见 结果 7-9 和 结果 7-10) 

结果 7-9 中 给 出 了 所 选 变量 两 两 之 间 的 相关 系数 矩阵 。 本 例 Pearson Correlation 为 
-0.279， 双 侧 P=0.010<0.05， 总 体 相关 系数 有 统计 学 意义 。 但 由 于 本 例 是 等 级 数据 ， 以 上 
Pearson 相关 系数 只 能 供 参 考 ， 正 确 分 析 方 法 应 该 是 非 参 数 等 级 相关 分 析 。 


Correlations 


P16 表达 水 平 


Pearson Correlation -.279* 


Sig. 2-tailed) .010 
N 





Pearson Correlation 
Sig. (2-tailed) 
N 
*. Correlation is significant at the 0.05 level (2-tailed). 





结果 7.9 Pearson Correlation 结果 
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Correlations 


Correlation Coefficient 1.000 
Sig. (2-tailed) 
N 84 





Correlation Coefficient 1.000 
Sig. (2-tailed) D. 
N 


结果 7-10 Nonparametric Correlations 结果 


以 上 是 Spearman 等 级 相关 分 析 ， 相 关系 数 x,=-0.209，P=0.057>0.05， 不 拒绝 H), Ë 
体 相关 系数 无 统计 学 意义 。 该 结果 与 Pearson 相关 分 析 恰 好 相反 。 由 于 本 例 数据 为 定性 数 
据 ， 因 此 应 选择 Spearman 等 级 相关 。 


7.2.2 Jonckheere-Terpstra 检验 


Jonckheere-Terpstra 检验 是 适用 于 定量 数据 和 有 序 分 类 数据 的 一 种 非 参 数 检验 方法 , 当 
要 检验 的 多 个 总 体 是 有 序 变 量 时 ，Jonckheere-Terpstra 检验 法 比 Kruskal-Wallis H 检验 法 更 
为 有 效 。 

1. 实例 描述 

Da 5 7a] 调查 110 名 肿瘤 患者 的 医疗 形式 和 患者 对 医疗 服务 的 满意 度 之 间 的 关 
系 ， 结 果 见 表 7-5〈 见 配 书 光 盘 中 的 数据 文件 data7-4.xls 或 data7-4.sav)。 问 医疗 形式 与 患 
者 对 医疗 服务 的 满意 度 之 间 是 否 存 在 某 种 趋势 ? 


1 表 7-5 医疗 形式 与 患者 对 医疗 服务 的 满意 度 之 间 的 关系 


医疗 服务 满意 度 
医疗 形式 —  & dk 
不 满意 满意 很 满意 
自费 36 17 ll 64 
半 公 费 13 18 8 39 
公费 1 2 4 7 
合计 50 37 23 110 





检验 假设 ; 

Ho: 三 种 医疗 形式 的 医疗 服务 满意 度 总 体 分 布 相同 ; 
Hi: 三 种 医疗 形式 的 医疗 服务 满意 度 总 体 分 布 不 全 相同 ; 
2=0.05 。 
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有 序数 据 的 统计 推断 EEG 


2. Jonckheere-Terpstra 过 程 的 操作 提示 〈( 见 图 7-6 和 图 7-7) 


PES EE 
Das 一 马 


[V Imelmkpertest |5 minules 
Exact method will be used instead of Monte Carlo when 

Test Type computational limits allow. 

[7 Kruskabwallis H teen. | 

Iv. Jonckheere-Terpstra 1 Options... | 


Kd 7-6 选择 Jonckheere-Terpstra 检验 7-7 选择 精确 概率 检验 
3. 结果 解释 〈 见 结果 7-11) 


Jonckheere-Terpstra Test" 


医疗 服务 
满意 度 
Number of Levels in 
医疗 形式 
N 


For nonasymptotic methods. cell counts are always rounded 
or truncated m computing the test statistics. 





Mean J-T Statistic 
Std. Deviation of J-T 
Statistic 

Std. J-T Statistic 
Asymp. Sig. (2-tailed) 
Exact Sig. (2-tailed) 
Exact Sig. (1-tailed) 


Point Probability 4 
a. Grouping Variable: 医疗 形式 





结果 7-11 Jonckheere-Terpstra Test 结果 


由 结果 7-11 可 知 ，JT 统 计量 为 2034.5， 近 似 己 值 和 精确 己 值 都 为 0.006<0.05， 拒 绝 
Ho， 认 为 三 种 医疗 形式 的 医疗 服务 满意 度 总 体 分 布 不 全 相同 。 该 结果 说 明 医 疗 形式 与 患者 
对 医疗 服务 满意 度 之 间 存 在 线性 趋势 ， 即 随 着 公费 比例 的 增加 ， 满 意 度 也 相应 增加 。 


7.2.3 Cochran-Mantel-Haenszel 统计 分 析 


由 于 小 样本 资料 假 阴性 的 概率 比较 大 ， 如 采取 多 中 心 试 验 ， 在 短 时 间 内 可 收集 到 足够 
的 样本 ， 从 而 提高 检验 的 效能 ， 以 达到 科研 的 预期 目的 。 但 在 多 中 心 试验 中 ， 由 于 各 中 心 ` 
的 硬 、 软 条 件 不 等 ， 中 心 混杂 因素 的 影响 是 不 可 避免 的 ， 将 多 中 心 资料 简单 合并 做 一 般 的 
Pearson x 检验 是 不 妥 的 ， 所 以 对 多 中 心 试验 汇总 资料 的 分 析 ， 就 得 考虑 混杂 因素 。 
Cochran-Mantel-Haenszel (CMH) 统计 分 析 方 法 考虑 了 混杂 因素 的 影响 ， 可 进行 分 层 多 中 
心 试 验 数 据 的 分 析 。 

CMH 统计 分 析 是 Mantel 于 1963 年 在 原 有 MH 统计 分 析 方 法 (1959 Æ>) 的 基础 上 提 
出 来 的 ，Koch 等 统计 学 家 于 1978 年 至 1988 年 使 之 发 展 和 完善 ， 现 在 习惯 称 之 为 扩展 的 
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MH 卡 方 统计 (Extended Mantel-Haenszel Statistics)， 也 笼统 称 之 为 MH 检验 ， 可 用 于 多 中 
心 试验 的 2x2，2xr 和 sx2 及 sxr 列 联 表 资 料 的 统计 处 理 。 它 在 考虑 多 中 心 〈 或 分 层 ) 试验 
混杂 因素 影响 的 前 提 下 ， 根 据 sxr 表格 中 行 变量 与 列 变量 的 属性 不 同 ， 给 出 三 种 检验 统计 
量 。 当 行 变 量 与 列 变量 均 为 有 序 变量 时 ， 给 出 非 零 相关 统计 量 (Nonzero Correlation); 4 
行 变 量 为 无 序 变量 而 列 变量 为 有 序 变量 时 , 给 出 行 平 均 秩 分 差异 统计 量 (Row Mean Scores 
Differ)， 即 方差 分 析 统 计量 ， 当 行 变 量 与 列 变量 均 为 无 序 变量 或 行 变量 是 有 序 变量 而 列 变 
量 为 无 序 变量 时 ,给 出 一 般 联 系统 计量 (General Association )。 以 分 层 的 2x2. 表 资 料 为 例 ， 
CMH 把 每 层 的 2x2 表 资 料 看 成 是 一 个 独立 的 超 几 何 分 布 ， 分 层 的 2x2 表 资 料 就 是 重 超 几 
何 分 布设 有 有 h 层 (或 h 个 试验 中 心 )， 每 一 层 的 2x2 表 见 表 7-6. 


表 7-6 % h BE 2x2 列 联 表 
处 理 组 有 效 人 数 无 效 人 数 $ d 


第 一 组 nan p12 Tis 
第 二 组 na np22 Di. 
合计 Thu Th nh 


在 Ho 成 立 的 情况 下 ，ma 的 期 望 值 为 E[mai|Ho] = P = my ， 方差 为 
h 


+nbpi2 + Anl + ums 
vina: | po] - Sea en en =vmi> CMH 卡 方 统计 量 为 : 


ni (ny —1) 
q 2 
Y ma 一 > mai 
— {ha h=1 
Y» 


b=1 
其 中 : h=1,2, 554: q 为 层 数 ， 自 由 度 v=1。 
值得 说 明 的 是 : 
° Mantel 和 Fleiss (1980 F>) 提出 了 多 中 心 或 分 层 试 验 CMH 统计 量 的 分 布 近似 好 2 分 
布 ， 需 满足 如 下 条 件 : 


sin s Eon [Eon -Sma |) >5 (7-5) 


Qmu (7-4) 


h=1 h=1 h=1 h=1 
其 中 ; (nm) L=max(0, nahr) (nai) U-min(1ya fais) 
e 当 各 中 心 两 个 处 理 组 的 有 效率 之 差 符 号 相同 时 ，CMH 检验 的 效能 较 高 ， 否 则 较 低 。 
1. 实例 描述 
在 两 个 中 心 对 患者 病程 与 依 沙 酰胺 疗效 的 关系 进行 了 研究 ， 结 果 见 表 
7-7《 见 配 书 光 盘 中 的 数据 文件 data7-5.xls 或 data7-$.sav)。 问 病程 与 依 沙 酰胺 疗效 是 否 有 
关 ? 
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有 序数 据 的 统计 推断 


表 7-7 ”病程 与 依 沙 酰胺 疗效 的 关系 


中 心 1 中 心 2 

病程 — — C .- 
有 效 EA 64 有 效 无 效 。 ”合计 
<3 月 48 5 53 52 4 56 
3 月 一 79 24 103 72 18 90 
合计 127 29 156 124 22 146 





检验 假设 : 

Ho: 两 种 病程 疗效 的 总 体 分 布 相 同 ; 
Hi: 两 种 病程 疗效 的 总 体 分 布 不 同 ; 
Oo=0.05 。 

2. Crosstabs 过 程 的 操作 提示 
(1) 定义 count 为 频数 变量 。 

(2) 选择 Crosstabs 过 程 。 

(3) 定义 Crosstabs 过 程 。 


"SRow [>] 病程 一 选 入 行 变量 : 病程 

“Column [>] 疗效 王选 入 列 变量 ， 疗效 

“Statistics... 一 弹出 Statistics 对 话 框 

他 回 Chi-square = 3k 4T Chi-square 检验 

DM Cochran's and Mantel-Haenszel c iit4f Cochran's and Mantel-Haenszel 检验 
statstistics ; 

Exact... 

DO Exact 号 选择 Exact 过 程 


DMI Time limit per test ^ ] minutes e FRA] Ae Ac JL 65 PF 3) 
3. 结果 解释 (MAR 7-12 至 结果 7-16) 
病程 * 疗效 * 试验 中 心 Crosstabulation 





结果 7-12 ” 按 试 验 中 心 分 层 的 交叉 表 
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Chi-Square Tests 
RET 心 Value 2-sided 2-sided 1-sided) | Probabili 
.035 .049 .026 
Continuity CorrectiorP 059 
Likelihood Ratio 
Fisher's Exact Test 


Linear-by-Linear 
Association 


N of Valid Cases 


Pearson Chi-Square 
Continuity Correctiorf 
Likelihood Ratio 
Fisher's Exact Test 
Linear-by-Linear 
Association 

N of Valid Cases 





a.Computed for a 2x2 table. 

b.0 celis(.0?6)have expected count less than 5.The minimum expected count is 9.85. 
c.The standardized statistic is 2.102. 

d.0 cells(.0%) have expected count less than 5.The minimum expected count is 8.44. 
e.The standardized statistic is 2.104. 


结果 7-13 Chi-Square Tests 结果 
由 以 上 结果 可 知 两 个 试验 中 心 的 Fisher's 精确 概率 分 别 为 0.049 和 0.055， 与 检验 水 准 
0.05 接近 ， 可 认为 两 个 试验 中 心病 程 与 疗效 可 能 有 关 。 


Tests of Homogeneity of the Odds Ratio 


| a 1 
Chi-Squared 2-sided 
Bresiow-Day .019 .890 
Tarone's .019 .890 
结果 7-14 Tests of Homogeneity of the Odds Ratio 结果 


由 结果 7-14 可 知 ，OR 值 的 一 致 性 检验 卡 方 为 0.019， 近 似 概率 为 0.890， 可 以 认为 不 
同 的 试验 中 心 OR 值 一 致 。 





Tests of Conditional Independence 


Asymp. Sig. 

Chi-Squared df 2-sided 
ochran's 8.886 .003 
Mantel-Haenszel 7.903 .005 


Under the conditional independence assumption, Cochran's 
statistic is asymptotically distributed as a 1 df chi-squared 
distribution, only if the number of strata is fixed, while the 
Mantel-Haenszel statistic is always asymptotically distributed 
as a 1 df chi-squared distribution. Note that the continuity 
correction is removed from the Mantel-Haenszel statistic when 
the sum of the differences between the observed and the 
expected is 0. 






结果 7-15 Tests of Conditional Independence 结果 


结果 7-15 是 分 层 卡 方 检验 结果 ， via =7.903，P=0.005， 表 明 去 除了 试验 中 心 的 混杂 
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_ 有 序数 据 的 统计 推断 ESMA 


作用 后 ， 病 程 与 疗效 有 关 。 


Mantel-Haenszei Common Odds Ratio Estimate 


Estimate 

In(Estimate) 

Std. Error of In(Estimate) 
Asymp. Sig. (2-sided) 


Asymp. 9596 Confidence Common Odds ` Lower Bound 
Interval Ratio Upper Bound 
in(Common Lower Bound 
Odds Ratio) Upper Bound 





The Mantel-Haenszel common odds ratio estimate is asymptotically normally 
distributed under the common odds ratio of 1.000 assumption. So is the natural log of 
the estimate. 


结果 7-16 Mantel-Haenszel Common Odds Ratio Estimate 结果 


由 结果 7-16 可 知 ，ORMH 值 为 3.063， 置 信 区 间 为 1.427—6.572, EW P (Ë 7j 0.004, 
说 明 去 除 混 杂 因 素 后 病程 与 依 沙 酰胺 疗效 有 相关 关系 ， 病 程 越 短 ， 其 疗效 越 好 。 


73 ” 几 个 相关 有 序 样本 的 非 参数 检验 


对 2 相关 样本 的 配对 资料 的 检验 可 用 符号 检验 、Wilcoxon 符号 秩 和 检验 ， 后 者 优 于 前 
者 。 对 多 个 相关 样本 的 区 组 资料 的 分 析 可 采用 Friedman 秩 和 检验 ， 以 消除 区 组 间 的 差异 。 


7.3.1 2 相关 样本 的 秩 检验 


2 相关 样本 即 为 配对 设计 研究 资料 往往 见于 下 列 几 种 情况 : 同一 试验 分 别 由 两 人 进行 检验 ， 
或 在 不 同时 间 点 重复 检测 两 次 ; 采用 病人 用 药 前 、 后 的 自身 对 照 设 计 的 临床 试验 ;流行 病 学 中 
采用 的 配 比 病例 与 对 照 研究 ， 同 一 个 体 的 相关 部 位 比较 ， 如 左手 的 握力 与 右手 的 握力 等 。 

配对 设计 的 研究 资料 可 整理 为 行 方形 表 。 将 第 i 行 、 第 j 列 对 应 格 的 频数 记 为 n; ， 第 
i 行 的 合计 频数 记 为 R. ， 第 j 列 的 合计 频数 记 为 Ci; ， 总 频数 记 为 N ; 行 的 分 类 特征 与 列 
的 分 类 特征 完全 相同 ， 而 且 分 类 的 排列 顺序 一 致 。 在 此 表 中 ， 从 左上 到 右 下 的 主 对 角 线 对 
应 格 的 频数 〈 ny ) 反映 行 、 列 分 类 的 一 致 性 ， 而 非 主 对 角 线 对 应 格 的 频数 ( nj，izj) 
反映 行 、 列 分 类 的 差异 性 。 

其 基本 原理 是 ;首先 求 出 配对 数据 的 差 值 ， 然 后 考察 差 值 总 体 的 中 心 位 置 是 否 为 0。 
与 分 布 类 型 无 关 ， 相 应 的 假设 为 考察 总 体 中 位 数 是 否 为 0， 并 可 构建 统计 量 。 检验 假 设 为 : 

Ha: 差 值 的 总 体 中 位 数 MF: 

H: 两 总 体 不 同 。 

1. 符号 检验 . 

符号 检验 可 以 说 是 最 早 被 提出 来 的 非 参数 统计 方法 ， 其 原理 是 : 如 果 两 个 配对 样本 实 
际 上 无 区 别 ， 则 样本 数据 相 减 所 得 的 差 值 为 正 的 个 数 〈S ) 和 差 值 为 负 的 个 数 〈S ) 基本 
平衡 ，8 ,8 都 服从 二 项 分 布 BG, 0.5). 24 S^, S 过 大 或 过 小 ,或 者 min(S , S ) 过 小 时 ， 拒 绝 
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DN 与 统计 分 析 — 


Ho。 由 于 符号 检验 只 利用 了 对 每 一 对 配对 的 数值 哪 一 侧 更 大 的 信息 ， 而 没有 利用 这 些 差 的 
大 小 所 包含 的 信息 ， 因 此 简单 易 行 ， 但 检验 效能 较 低 ， 精 度 较 差 。 这 种 方法 更 适用 于 对 无 
法 用 数字 计量 的 情况 进行 比较 ， 如 资料 本 身 就 是 两 分 类 ， 对 于 连续 资料 则 最 好 不 要 使 用 。 

2. Wilcoxon 符号 秩 和 检验 

Wilcoxon 符号 秩 和 检验 在 符号 检验 方法 的 基础 上 做 了 改进 ， 既 考虑 样本 差 数 的 符号 ， 
同时 又 考虑 到 差 数 的 顺序 。 不 同 的 符号 代表 了 在 中 心 位 置 的 哪 一 边 ， 而 差 的 绝对 值 代表 了 
距离 中 心 的 远近 。Wilcoxon 符号 秩 和 检验 的 假设 也 是 考察 均 数 差 值 所 在 总 体 的 中 间 位 置 是 
否 为 0。 检 验 假设 为 : 

Ho: 差 值 的 总 体 中 位 数 Mj=0; 

Hi: 两 总 体 不 同 。 

进行 检验 时 ， 计 算出 每 对 配对 样本 数据 之 差 (q;)， 对 ld 由 低 到 高 进行 排 秩 ， 相 同 的 差 
异 将 被 赋予 平均 秩 ， 若 配对 样本 具有 相同 的 分 布 ， 那 么 P(d>0)=P(d<0)。 将 {di} 按 正 负 号 分 
组 ， 令 W+ 表 示 Idi>0I 的 秩 和 ，W- 表 示 Ildi<0Il 的 秩 和 ， 检 验 统计 量 取 W=min(W+, W-) `4 Ho 
成 立时 , W+ W- 的 理论 数 应 相等 , 在 大 样本 的 情形 下 , W 的 抽样 分 布 近 似 为 正 态 概率 分 布 。 

z:W-Huw 


(7-6) 
Ow 
| n(n+]) zi n(n *- 1)(2n +1) ° i ; 
其 中 ， A G NEEDS > n 为 配对 值 的 总 数 。 
> SPSS 操作 选项 说 明 (2 Related Samples .… 过 程 ) 
Test Type 复 选 框 组 : 选择 进行 两 相关 样本 的 非 参 数 检验 方法 
Wilcoxon 一 Wilcoxon' 符 号 秩 和 检验 ， 为 相关 样本 差 值 的 秩 和 检 
-Sign SHIRE, IAEN HE, AFR 
McNemar 一 常用 的 配对 卡 方 检验 ， 只 用 于 两 分 类 资料 ， 检 验 两 
组 间 分 类 有 差异 的 频数 ， 不 考虑 相同 分 类 的 频数 
Marginal Homogeneity 一 适用 于 多 个 相关 样本 的 有 序 分 类 资料 ,与 McNemar 


类 似 ， 只 分 析 有 差异 的 情况 

1. 实例 描述 

开展 1:1 配对 病例 对 照 研究 吸烟 与 膀胱 癌 的 关系 ， 结 果 见 表 7-8〈 见 配 
书 光盘 中 的 数据 文件 data7-6.xls 或 data7-6.sav)。 问 吸烟 与 膀胱 癌 有 无 联系 ? 


表 7-8 吸烟 与 膀胱 癌 1:1 配对 资料 


5 ø . 
W JG — V _ J E&E H 
吸烟 不 吸烟 
吸烟 36 88 124 
不 吸烟 16 60 76 


合计 52 148 200 


有 序数 据 的 统计 推断 EHREEG 


检验 假设 : 
Ho: 两 组 差 值 的 总 体 中 位 数 My=0; 
Hi: 两 组 总 体 不 同 ; 


0=0.05。 


2. Wilcoxon 过 程 的 操作 提示 〈 见 图 7-8) 


Test Type 
I Wicoxon FZ Sign FZ McNemar 
IV Marginal Homogeneity 


图 7-8 选择 秩 检验 方法 





(1) 定义 频数 变量 为 count。 

(2) 选择 Nonparametric Tests 过 程 。 
(3) 打开 2 Related Samples .. i f. 
(4) 定义 2 Related Samples … 过 程 。 


DDAA Variable 1: 病例 组 = 3. 2 159 

D DWB Variable 2: 对 照 组 = 3 + * S 2 为 对 照 组 

"Test Pair(s)List [>] 一 选 入 变量 对 

Test Type 复 选 框 组 

M Wilcoxon = #47 Wilcoxon 符号 秩 和 检验 
“BEI Sign 一 进行 符号 检验 

DK McNemar 呈 进 行 配对 卡 方 检验 

“BT Marginal Homogeneity 一 进行 边际 一 致 性 检验 


结果 解释 〈 见 结果 7-17 至 结果 7-24) 


Ranks 















Ties 
Total 
Q. 对 照 组 < 病例 组 


siwa own Sum of Ronks 
b. 对 照 组 > 病例 组 


Negative Ranks 889 52.50 4620.00 
165 52.50 840.00 
E. 
C. XI RH. = 病例 组 


Positive Ranks 
结果 7-17 Wilcoxon Signed Ranks Test 结果 * 
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与 统计 分 


以 上 结果 为 Wilcoxon 符号 秩 和 检验 的 编 秩 情况 列表 ， 计 算 的 是 对 照 组 -病例 组 每 对 样 
本 的 差 值 , 负 的 秩 和 的 绝对 值 (Negative Ranks) X 4620, 正 的 秩 和 的 绝对 值 (Positive Ranks) 
为 840， 可 见 对 照 组 的 吸烟 暴露 比例 较 少 。Ties 为 暴露 情况 一 致 的 数目 ， 为 9%6， 即 病例 组 
和 对 照 组 都 吸烟 或 不 鹃 烟 的 对 子 数 。 


Test Statistics? 
L— DS 
病例 组 
z -7.0608 
Asymp. Sig. (2-tailed) .000 


a. Based on positive ranks. 












b. Wilcoxon Signed Ranks Test 
结果 7-18 Wilcoxon Signed Ranks Test Statistics 结果 


由 结果 7-18 n] ^f, Wilcoxon 符号 秩 和 检验 统计 量 Z 值 为 -7.060，P=0.000， 拒 绝 Ho, 
可 见 两 组 差异 有 统计 学 意义 ， 病 例 组 吸烟 的 暴露 比例 高 于 对 照 组 暴露 的 比例 。 


Frequencies 


Test Statistics? 


病例 组 
a. 对 照 组 «3p ilz . . 
; Asymp. Sig. (2-tailed . 
b. 对 照 组 > 病例 组 ymp. Sig. ( ) 000 


c. 对 照 组 = 病例 组 a. Sign Test 


HH Negative Differences? 






Positive Differences? 
Tiesc 
Total 








结果 7-19 Sign Test 结果 结果 7-20 Sign Test Statistics 结果 
以 上 结果 为 符号 检验 统计 量 Z 值 为 -6.962， 其 检验 效率 低 于 Wilcoxon 符号 秩 和 检验 。 
P=0.000， 拒 绝 H,, 5j Wilcoxon 符号 秩 和 检验 结果 一 致 。 


结果 7-21 给 出 了 变量 配对 的 情况 。 


Test Statistics” 


aM 病例 组 & 


N 200 
Chi-Squarea 48.471 


Asymp. Sig. .000 
8. Continuity Corrected 
b. McNemar Test 







病例 组 & 对 照 组 


病例 组 | 1 | 2 | 


1 36 16 
2 88 60 


结果 7-21 McNemar Test 结果 

















结果 7-22. McNemar Test Statistics 结果 


由 结果 7-22 可 知 ，McNemar 检验 的 卡 方 值 为 48.471， 系 统 自 动 为 其 继续 进行 自动 校 
正 。 近 似 概 率 PP 值 为 0.000， 表 明 两 组 分 类 差异 有 显著 的 统计 学 意义 。 


200 | 


Marginal Homogenelty Test 
病例 组 & 


Off-Diagonal Cases 
Observed MH Statistic 
Mean MH Statistic 


Asymp. Sig. (2-tailed) 
Exact Sig. (2-tailed) 


Std. Deviation of MH Exact Sig. (1-tailed) 
Statistic Point Probability 


Std. MH Statistic . a. Based on positive ranks. 
Asymp. Sig. (2-tailed) : b. Wilcoxon Signed Ranks Test 





结果 7-23 Marginal Homogeneity Test 结果 结果 7-24 Wilcoxon Signed Ranks Test Statistics 结果 


例 7-6 也 可 以 用 Crosstabs 过 程 进行 分 析 ， 见 结果 7-25 和 结果 7-26. 
对 照 组 * 病例 组 Crosstabulation 


— ES 
Total 


Count 





结果 7-25 对照 组 * 病 例 组 Crosstabulation 


Chi-Square Tests 

















vane. 2-sided 2-sided) 1-sided) Probabili 
Pearson Chi-Square 9° .212 
Continuity CorrectiorP 
Likelihood Ratio 
Fisher's Exact Test 
Linear-by-Linear 
Association 
McNemar Test 
N of Valid Cases 











8. Computed only for a 2x2 table 


b. 0 cells (.096) have expected count less than 5. The minimum expected count is 19.76. 
C. The standardized statistic is 1.246. 
d. Binomial distribution used. 


结果 7-26  Chi-Square Tests 结果 


McNemar 检验 结果 为 P=0.000， 与 使 用 上 面 介绍 的 方法 进行 检验 的 结果 一 致 。 


7.3.2 多 组 相关 样本 检验 


多 组 相关 样本 检验 通常 采用 Friedman 秩 和 检验 , 又 称 M 检验 , 在 1937 年 由 Friedman 
提出 ， 目 的 是 推断 各 处 理 组 样本 分 别 代表 的 总 体 分 布 是 否 不 同 。 该 方法 的 基本 思想 是 : 消 
除 区 组 内 差异 的 影响 ， 对 不 同 区 组 的 处 理 因素 进行 比较 ， 因 此 独立 地 在 每 一 个 区 组 内 各 自 
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DRN 与 统计 分 析 — 


对 数据 进行 排 秩 ， 消 除 区 组 间 的 差异 ， 以 检验 各 种 处 理 之 间 是 否 存在 差异 。 将 各 区 组 内 的 
观察 值 按 从 小 到 大 的 顺序 进行 编 秩 ;如果 各 处 理 相同 ， 则 各 区 组 内 秩 1, 2,…, 应 以 相等 
的 概率 出 现在 各 处 理 ( 列 ) 组 ,， 即 各 处 理 组 的 秩 和 应 该 大 致 相等 , 不 太 可 能 出 现 较 大 差别 。 
如 果 所 得 各 处 理 样 本 秩 和 Ri, Ro, …, Rk 相差 很 大 ， 则 各 处 理 组 的 总 体 分 布 不 同 。 
> SPSS 操作 选项 说 明 (k Related Samples ... 过 程 ) 

Test For Several Related Samples 一 显示 要 分 析 的 变量 


Test Variables 框 一 先入 进行 分 析 的 几 个 变量 
Test Type 复 选 框 组 : 选择 进行 两 相关 样本 的 非 参 数 检验 方法 
AM Friedman 一 M 检验 , 大 个 相关 样本 最 常用 的 检验 
DM Kendall's W “Kendall 协和 系数 检验 ,表示 大 个 指标 间 相 互 
x 关联 的 程度 
DM Cochran's Q 一 适用 于 二 分 类 变量 ,是 两 相关 样本 lcd 
"在 多 个 样本 情况 下 的 推广 


1. 实例 描述 

将 24 只 小 鼠 按 窜 别 不 同 分 为 8 个 区 组 ， 再 把 每 个 区 组 中 的 观察 单位 随 
机 分 配 到 3 种 不 同 饲料 组 ,喂养 一 定时 间 后 ， 测 得 小 鼠 肝 脏 中 铁 含量 (hg/g) 结果 见 表 7-9 
( 见 配 书 光 盘 中 的 数据 文件 data7-7.xls 或 data7-7.sav)。 试 问 不 同 饲料 组 小 鼠 肝 中 铁 含量 是 
否 有 差别 ? 


表 7-9 不 同 饲料 组 小 鼠 肝 脏 中 铁 含量 〈hg/g) 


Sa A) 饲料 A 饲料 B 饲料 C 
1 1.002) 0.96(1) 2.07(3) 
2 1.01(1) 1.232) 3.723) 
3 1.13(1) 1.54(2) 4.50(3) 
4 1.14(1) 1.96(2) 4.90(3) 
5 1.70(1) 2.94(2) 6.00(3) 
6 2.01(1) 3.682) 6.84(3) 
Ts 2.23(1) 5.59(2) 8.23(3) 
8 2.63(1) 6.96(2) 10.33(3) 
Ri 9 15 24 


检验 假设 : 

Ho: 不 同 饲料 组 小 鼠 肝 脏 中 铁 含量 总 体 中 位 数 相同 ; 

Hi: 不 同 饲料 组 小 鼠 肝 脏 中 铁 含量 总 体 中 位 数 不 全 相同 ; 
0=0.05。 
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有 序数 据 的 统计 推断 ENS 


2. Friedman 过 程 的 操作 提示 〈( 见 图 7-9) 


Test Type 
F Friedman Í KendallsW Í Cochran'sQ 





图 7-9 选择 Friedman 检验 方法 


单 击 Analyze— Nonparametric Tests— k Related Samples .., 5E X k Related Samples ... 
irf o 





Test Variables 4E ik A RHA 3 个 变量 
M Friedman =ik# Friedman 检验 
3. 结果 解释 
Ranks 
Chi-Square 

HRA 1.04 df 

饲料 B 1.96 Asymp. Sig. 

饲料 C 3.00 G. Friedman Test 





结果 7-27 Friedman Test 结果 结果 7-28 Friedman Test Statistics 结果 


由 结果 7-27 和 结果 7-28 可 知 , 3 种 饲料 小 鼠 肝 脏 中 铁 含量 的 平均 秩 分 别 为 1.04, 1.96. 
3.00, Friedman 检验 统计 量 卡 方 值 为 50.077, P=0.000<0.05, 在 检验 水 准 为 0.05 时 拒绝 Ho. 
可 认为 不 同 饲料 组 小 鼠 肝 脏 中 铁 含量 不 全 相同 。 


第 Ô = 简单 线性 回归 与 相关 





前 面 的 章节 讨论 的 是 单一 变量 的 统计 分 析 方 法 ,着重 描述 单一 变量 的 统计 特征 或 比较 
该 变量 的 组 间 差 别 。 在 医学 科学 研究 中 ， 我 们 常常 需要 研究 两 个 连续 变量 的 关系 ， 如 身高 
与 体重 、 药 物 剂量 与 治疗 效果 等 ， 这 时 就 要 用 回归 与 相关 分 析 。 在 本 章 里 ， 我 们 主要 介绍 
两 个 变量 呈 直 线 关 系 时 ， 如 何 正 确 应 用 SPSS 13.0 实现 线性 回归 与 相关 分 析 。 


8.1 一 般 的 简单 线性 回归 


8.1.1 线性 回归 的 概念 


线性 回归 (Linear Regression) 是 分 析 两 个 连续 型 变量 之 闻 依 存 变化 的 数量 关系 的 统计 
方法 ， 它 是 回归 分 析 中 最 基本 、 最 简单 的 情况 ,因此 也 称 为 简单 回归 (Simple Regression). 
这 两 个 变量 的 地 位 是 不 同 的 ， 其 中 一 个 作为 自 变 量 (Independent Variable)， 亦 称 解 释 变 量 
(Explanatory Variable)， 用 xx 表示， 可 以 是 服从 正 态 分 布 的 随机 变量 ， 也 可 以 是 能 精确 测量 
和 严格 控制 的 非 随机 变量 ; 另 一 个 作为 因 变量 (Dependent Variable), 也 称 应 变量 (Response 
Variable), Hl y 表示 。 

线性 回归 通常 的 假设 为 : 

e 自 变 量 与 应 变量 间 关 系 有 线性 趋势 (Linear); 

° 每 个 观察 个 体 之 间 相 互 独立 (ndependent); 

° 给 定 x 值 ， 对 应 的 y 服 从 总 体 均 数 为 jy: 、 方 差 为 o? 的 正 态 分 布 〈Normal 

Distribution); 

。 不 同 x 所 对 应 y 的 方差 相等 (Equal Variance), 3) o? , 

为 了 方便 记忆 ， 以 上 假设 称 为 LINE (RH) 假设 ， 因 为 线性 、 独 立 、 正 态 、 等 方差 
的 首 写 字母 为 LINE。 

若 以 变量 x 与 y 分 别 为 模 轴 和 纵 轴 ， 将 成 对 的 样本 实测 值 绘制 散 点 图 ， 如 图 8-1 所 示 ， 


简单 线性 回归 与 相关 FRUEQ 


各 散 点 通常 并 不 会 恰好 在 一 条 直线 上 。 根 据 散 点 图 所 反映 出 两 个 变量 的 线性 趋势 ， 可 以 假 
定 ， 对 于 自 变量 x 的 各 个 取 值 ， 相 应 的 应 变量 y 的 总 体 均 数位 于 一 条 直线 上 ， 这 时 我 
们 可 以 用 某 个 适当 的 线性 回归 方程 (Linear Regression Equation) 来 描述 y 的 总 体 均 数 依赖 


于 x 的 数值 变化 。 回 归 方 程 如 下 : 
Hy | =G + Bx (8-1) 





8-1 线性 回归 示意 图 


回归 方程 大 多 数 情况 由 样本 得 到 ， 称 为 样本 回归 方程 或 经 验 回 归 方 程 。 如 果 以 了 表示 
Hye 的 一 个 样本 估计 值 ， 即 x 确定 时 y 的 样本 均 数 ， 则 样本 回归 方程 的 一 般 表 达 式 为 : 
$=at+bx (8-2) 
AX (8-2) 中 ，4a 为 回归 直线 在 y 轴 上 的 截 距 Intercept)， 表 示 x 值 为 0 时 y 的 平均 
水 平 。a<0， 表 示 直 线 与 纵 轴 的 交点 在 原点 的 下 方 ; a >0， 交 点 在 原点 的 上 方 ，a =0， 
回归 直线 经 过 原点 。4b 称 为 回归 系数 〈Regression Coefficient)， 即 直线 的 斜率 〈Slope)， 其 
统计 学 意义 是 :x 每 变化 一 个 单位 ，y 平 均 变 化 b 个 单位 。b<0， 表 示 直 线 从 左上 方 走向 
右 下 方 ， 即 y 随 x 的 增 大 而 减 小 ，b >0， 表 示 直 线 从 左下 方 走向 右上 方 ， 即 y 随 着 x 的 增 
大 而 增 大 ; b=0， 表 示 直 线 与 x 轴 平 行 ， 即 x 与 y 无 直线 关系 。 


8.1.2 ”建立 线性 回归 方程 


从 样本 数据 中 求解 a 和 b， 实 际 上 是 拟 合 一 条 反映 所 有 散 点 集中 趋势 的 回归 直线 ， 使 
得 各 实测 值 与 对 应 该 点 估计 和 值 最 接近 。 如 图 8-2 所 示 ， 实 测 值 y 与 回归 线 上 的 估计 值 $ 的 
纵向 距离 y- 9 RARE (Residual 或 剩余 值 ， 就 是 各 点 残 差 要 尽 可 能 小 。 由 于 残 差 有 正 
有 负 ， 通 常 要 找 一 条 各 点 残 差 平方 和 最 小 的 直线 。 

要 保证 各 实测 点 距 回 归 直 线 纵 向 距离 平方 和 最 小 , 通常 用 最 小 二 乘法 (Method of Least 
Square)， 推 导出 回归 方程 系数 的 计算 公式 : 


p 249-307) ls (8-3) 
$e- xy ls 
a-y-bx (8-4) 


AU. xy XE x y WIG Du. 1, 分 别 是 x，y 的 离 均 差 平方 和 ; Ld x 5 y RIS 
差 交 又 乘 积 和 ， 简 称 离 均 差 积 和 。 
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ES ° 


两 变量 线性 回归 关系 除了 可 以 用 公式 (8-2) 表示 外 ,还 可 以 在 散 点 图 上 绘制 出 样本 回 
归 直 线 作 为 一 种 直观 的 统计 描述 补充 形式 ， 此 直线 必然 通过 点 (x,y》) 且 与 纵 坐 标 轴 相 交 
于 截 距 a 。 在 自 变量 实测 范围 内 ， 取 易于 读数 的 x 值 代入 回归 方程 得 到 一 个 点 的 坐标 ， 连 
接 此 点 与 点 《x,y) 也 可 绘 出 回归 直线 。 


y P(x, y) 





图 8-2 ”应 变量 平方 和 划分 示意 图 


8.1.3 回归 系数 的 假设 检验 

前 面 我 们 只 完成 了 两 变量 关系 的 统计 描述 ， 要 推断 自 变 量 x 与 应 变量 y 间 是 否 有 直线 
关系 ， 需 对 总 体 回归 系数 B 进行 假设 检验 。 即 使 样本 来 自 总 体 回归 系数 B 为 零 的 总 体 ， 由 
于 抽样 误差 的 存在 ， 样 本 回归 系数 b 也 不 一 定 为 零 。 

常用 的 假设 检验 方法 有 上 检验 和 方差 分 析 。 


1. ft 检验 





=-2-0- b 
° Sp Sw /Vl 
Z 0- _ [SS _ 
Sy = |^ n-2 n-2 (8 7) 
式 中 ， 吧 表示 样本 回归 系数 的 标准 误 ，5 表 示 剩 余 标 准 差 (Residual Standard Deviation). 
求 得 1 值 后 查 界 值 表 得 P 值 ， 按 所 取 c 水 准 做 出 推断 。 
2. 方差 分 析 
如 图 8-2 Bras, P 点 是 双 变 量 散 点 图 中 任 一 点 ， 它 的 纵 坐 标 被 回归 直线 与 均 数 截 成 
3 上 段 ，y-- 了 =(y 一 四 +(》 一 了》)。 若 将 全 部 点 按 上 述 法 处 理 ， 并 将 等 式 两 端 平 方 后 求 和 ， 则 
fH: 


; V-n-2 (8-6) 


Yo-»'2Y0-3!-YX6-» (8-8) 
上 式 用 符号 表示 为 : 
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简单 线性 回归 与 相关 ENRNEd 


SS g=$S ut SS # (8-9) 

Va= Vut V (8-10) 

未 考虑 自 变 量 与 应 变量 的 回归 关系 时 ， 应 变量 的 随机 误差 即 为 》 的 总 变异 SS a; 425 

虑 了 回归 关系 时 ， 随 机 误差 就 减 小 为 SS 和 。 若 总 体 中 两 变量 间 存 在 回归 关系 ， 回 妇 变 异 应 


远大 于 随机 误差 ， 大 到 何 种 程度 时 可 以 认为 具有 统计 学 意义 ， 可 采用 统计 量 F 来 做 推断 。 


p-.S9a/vm | MS Vg-l, vs =n—2 (8-11) 
SSg/Vsj MS% 


MS, MSp DARA [ELELEJ Z3 835977 . AiE F RA ABRA va va B F 分 布 。 


8.1.4 实例 与 操作 


回归 分 析 的 应 用 很 广泛 ， 但 它 有 一 定 的 适用 条 件 ， 因 此 在 拟 合 模型 前 ， 需 要 对 资料 进 
行 判断 。 

1. 分 析 步 又 

第 1 步 : 绘制 散 点 图 ， 考 察 数据 是 否 满 足 线性 趋势 

如 果 图 中 发 现 有 明显 远离 主体 数据 的 观测 值 ， 则 称 之 为 异常 点 (Outlier)， 这 些 点 很 可 
能 对 正确 评价 两 变量 间 关 系 有 较 大 影响 。 对 异常 点 的 识别 与 处 理 需 要 从 专业 知识 和 数据 特 
征 两 方面 来 考虑 ， 结 果 可 能 是 现 有 回归 模型 的 假设 错误 需要 改变 模型 形式 ， 也 可 能 是 抽样 
误差 造成 的 一 次 偶然 结果 甚至 过 失误 差 。 需 要 强调 的 是 ， 实 践 中 不 能 通过 简单 剔除 异常 数 
据 的 方式 来 得 到 拟 合 效果 较 好 的 模型 ， 只 有 认真 核对 原始 数据 并 检查 其 产生 过 程 认定 是 过 
失误 差 ， 或 者 通过 重复 测定 确定 是 抽样 误差 造成 的 偶然 结果 ， 才 可 以 剔除 或 采用 其 他 估计 
方法 ， 例 如 非 参数 回归 与 相关 。 

第 2 步 : 观察 数据 的 分 布 

分 析 应 变量 的 正 态 性 、 方 差 齐 性 ， 确 定 是 否 可 以 进行 线性 回归 分 析 。 模 型 拟 合 完毕 ， 
通过 残 差 分 析 结果 来 考察 模型 是 否 可 靠 。 如 果 变 量 进行 了 变换 ， 则 应 重新 绘制 散 点 图 并 观 
察 数 据 分 布 。 

第 3 步 ， 拟 合 回归 直线 

第 4 步 ， 残 差分 析 

考察 数据 是 否 符合 模型 假设 条 件 ， 主 要 包括 以 下 两 个 方面 。 

(1) 残 差 是 否 独立 

实际 上 就 是 考察 应 变量 y 取 值 是 否 相互 独 立 。 采 用 Durbin-Watson 残 差 序列 相关 性 检 
验 进行 分 析 。 

(2) 残 差分 布 是 否 为 正 态 

实际 上 就 是 考察 应 变量 y 取 值 是 否 服从 正 态 分 布 。 可 以 采用 残 差 列表 及 一 些 相 关 指 标 
来 分 析 ， 直 观 方法 是 图 示 法 。 

完成 以 上 4 步 ， 才 能 认为 得 到 的 是 一 个 统计 学 上 无 误 的 模型 ， 下 一 步 就 是 根据 统计 学 
结果 ， 结 合 专业 实际 做 出 结论 。 
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第 5 步 : 结果 的 解释 

反映 两 变量 关系 密切 程度 或 数量 上 影响 大 小 的 统计 量 应 该 是 回归 系数 或 相关 系数 的 
绝对 值 ， 而 不 是 假设 检验 的 P 值 。P 值 越 小 只 能 说 越 有 理由 认为 变量 间 的 直线 关系 存在 ， 
而 不 能 说 关系 越 密切 或 越 “ 显 著 ”。 另 外 ， 线 性 回归 用 于 预测 时 ， 其 适用 范围 一 般 不 应 超 
出 样本 中 自 变量 的 取 值 范围 ， 此 时 求 得 的 预测 值 称 为 内 插 〈Interpolation)， 而 超过 自 变量 
取 值 范围 所 得 的 预测 值 称 为 外 延 (Extrapolation)。 若 无 充分 理由 说 明 现 有 自 变 量 范围 以 外 
的 两 变量 间 仍 然 是 直线 关系 ， 则 应 尽量 避免 不 合理 的 外 延 。 

2. 操作 选项 说 明 

线性 回归 在 SPSS 的 Analyze 菜单 下 的 Regression 子 菜单 里 实现 。 Regression 子 菜单 包 
含 的 内 容 极为 丰富 ， 大 致 分 为 以 下 4 大 部 分 。 

(1) 线性 回归 

线性 回归 包括 简单 线性 回归 和 多 重 线性 回归 ， 由 Linear 过 程 实现 ， 应 用 非常 广泛 。 

(2) 非 线性 回归 

非 线性 回归 是 线性 趋势 向 非 线性 趋势 的 拓展 ， 包 括 Curve Estimation 过 程 和 Nonlinear 
Regression 过 程 。 

(3) 分 类 资料 的 回归 

分 类 资料 的 回归 包括 二 分 类 、 无 序 多 分 类 和 有 序 多 分 类 Logistic 过 程 及 Probit 过 程 。 

(4) 其 他 回归 

对 不 满足 线性 回归 假设 的 资料 而 推出 的 一 些 “ 补 充 ” 方 法 , 包括 Weight Estimation 过 程 、 
2-Stage Least Squares 过 程 和 Optional Scaling 过 程 ， 这 些 方法 有 其 特殊 用 途 。 

后 面 我 们 将 逐步 对 以 上 知识 进行 探讨 , 本 章 将 讲述 由 Linear 过 程 实现 线性 回归 。Linear 
过 程 也 可 以 实现 多 重 线性 回归 ， 我 们 将 在 第 10 章 对 相应 的 界面 和 对 话 框 进行 讲解 ， 本 章 
主要 介绍 在 简单 线性 回归 中 可 能 用 到 的 界面 、 对 话 框 及 选项 。 

在 菜单 栏 中 单 击 菜单 Analyze 一 Regression 一 Linear( 见 图 8-3), 弹出 Linear Regression 
主 对 话 框 ( 见 图 8-4). 








es mr 


图 8-3 Regression 子 菜单 8-4 Linear Regression 主 对 话 框 
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简单 线性 回归 与 相关 EHERNGA 


左 侧 框 内 包含 数据 文件 所 有 的 变量 名 ， 其 他 操作 说 明 如 下 。 


> 操作 选项 说 明 
Dependent 一 定义 回归 分 析 的 应 变量 ， 只 能 选 一 个 。 在 左 侧 框 内 单 击 应 变 
量 名 ， 其 前 面 的 小 三 角 符 号 变 成 黑色 ( 即 被 激活 )， 单 击 选 入 
Independent 全 定义 回归 分 析 的 自 变量 。 用 法 同上 
“Method 号 选 择 自 变量 的 选 入 方式 ， RUHA Enter ( 即 强行 进入 法 )。 


本 章 自 变量 只 有 一 个 ， 就 选择 Enter 法 

"Selection Variable “一 当 只 分 析 某 变量 符合 一 定 条 件 的 记录 时 ， 选 入 该 变量 ， 并 通 
过 右 侧 的 Rule 按钮 建立 选择 条 件 。 这 和 我 们 在 分 析 前 利用 
Data 菜单 中 的 Select Case 选择 记录 的 功能 是 一 样 的 

Case Labels 号 选择 一 个 变量 ， 它 的 取 值 将 作为 每 条 记录 的 标签 

DWLS Weight 一 进行 加 权 最 小 二 乘法 的 回归 分 析 


单 击 图 8-4 下 方 的 Statistics... 按 钮 ， 弹 出 Statistics 子 对 话 框 〈 见 图 8-5)， 用 于 设置 输 
出 所 需 的 描述 统计 量 。 








图 8-5 Statistics 子 对 话 框 


> 操作 选项 说 明 

Regression Coefficients: 设置 回归 系数 选项 

"BEstimates 所 输出 回归 系数 b 及 其 标准 误 、1 值 、P 值 ， 标准 化 回归 
RAB, RUAA 

“Confident Intervals c dir H E] Ja £ dcs 95% 3 48 É. ja] 

Covariance matrix —$*wwmBpGh&e8tXIX4M&84d2£.MW 
差 矩 阵 

Model fit 号 输出 进入 、 退 出 模型 的 变量 列表 ， 并 给 出 有 关 拟 合 优 
度 的 检验 : 相关 系数 R. ARAK 到 和 调整 的 尺 、 标 
准 误 及 方差 分 析 表 ， 上 默认 选项 

-Descriptives 一 输出 变量 的 描述 统计 量 ， 如 有 效 记 录 数 、 均 数 、 标 准 
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与 统计 分 


Residuals: 设置 残 差 选项 


差 等 。 在 多 重 回归 中 ， 还 给 出 一 个 自 变 量 的 相关 矩阵 


-Durbin-Watson 一 输出 系列 相关 残 差 的 Durbin-Watson 检验 和 残 差 与 巴 


测 值 


“@Casewise diagnostics 一 个 案 残 差 诊断 


单 击 图 8-4 下 方 的 Plots... 按 钮 ， 弹 出 Plots 子 对 话 框 〈 见 图 8-6)， 用 于 设置 输出 残 差 
图 、 直 方 图 、 正 态 P-P 图 和 局 部 回归 图 。 





"ZPRED 
"ZRESID 
*DRESID 





[  Histogram 





> 操作 选项 说 明 
EMIRE: 列 出 7 个 变量 名 
-DEPENDNT 
-ZRESID 
-ADJPRED 
SDRESID 
“DZPRED 
-DRESID 
-SRESID 
Scatter: 绘制 散 点 图 
“Previous 
"Next 
AX 
JY 


ADJPRED | , ] Tl H 
"DRESID 
| rtr -— 

Standardized Residual Plots [” Produce all partial plots 


f^ Normal probability plot 


Scatter1of 1— — 


pone us 
ne | 





图 8-6 Plots 子 对 话 框 


SRE 

一 标准 化 残 差 

一 调整 预测 值 

一 学 生化 剔除 残 差 
一 标准 化 预测 值 
= | x 

一 学 生化 残 差 


全 上 一 组 坐标 的 变量 名 
全 下 一 组 坐标 的 变量 名 
= A 3, VEU X #h 
CUBE, MES EM Y h 


Standardized Residual Plots: 绘制 标准 残 差 图 


Histogram 
Normal probability Ploot 


单 击 图 8-4 下 方 的 Save...TZ Hl, 


结果 ， 如 残 差 、 预 测 值 等 。 
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一 直方 图 
一 正 态 P-P 图 


弹出 Save 子 对 话 框 ( 见 图 8-7)， 用 于 保存 回归 分 析 的 


简单 线性 回归 与 相关 EBEN 


Residuals 一 二 一 
I Unstandardized 


[^ Standardized 
[^ Sludentized 
[^ Deleted 

~ |f" Studentized deleted ` 
I Influence Statistics 

| |^ Dígetals) 


I^ Standardized DíBeta(s) 
[^ Dffi 

I" Standardized DfFit 

[^ Covariance ratio 


Export model information to XML file 


| € 


Ív Include the covariance matrix 








Kd8-7 Save 子 对 话 框 


> 操作 选项 说 明 
Predicted Values: 设置 预测 值 选 项 
"BUnstandardized 号 应 变量 原始 预测 值 
"BStandardized cS TIME, Th2046 6533683 0, AF426351 
"BAdjusted 宇 不 考虑 当前 记录 ， 当 前 模型 对 该 记录 应 变量 的 预测 值 


"OS.E.of mean predictions ”所 预测 值 的 标准 差 
Residuals: 设置 残 差 选项 ， 用 于 模型 诊断 


Unstandardized PRERE 

Standardized 吓 标 准 化 后 的 残 差 ， 均 数 为 0， 标 准 差 为 

“Studentized 一 采用 1 变换 产生 的 残 差 ， 即 学 生化 残 差 

他 Deleted 一 不 考虑 当前 记录 ， 当 前 模型 对 该 记录 应 变量 的 预测 值 
对 观察 值 的 原始 残 差 ， 即 剔除 残 差 ， 可 发 现 可 疑 的 强 
影响 点 

"BStudentized deleted 一 学 生化 剔除 残 差 

Distances: 设置 测量 数据 点 离 拟 合 模型 的 距离 指标 

Mahalanobis cdhiRdEAGEBSP, RGOULAEBSER ERG MMASSEE 

"Cook's 号 表示 不 考虑 该 记录 ， 模 型 残 差 发 生 的 变化 。 若 Cook's 
距离 大 于 1]， 该 记录 则 可 能 为 影响 点 

Leverage values 全 杠杆 值 。 测 量 数据 点 的 影响 强度 ， 若 值 大 于 2*P/N (P 


为 变量 数 ，N 为 样本 含量 )， 该 记录 则 可 能 为 影响 点 
Prediction Intervals: 设置 预测 区 间 
-Mean 一 条 件 均 数 的 置信 区 间 


Hiti 


Individual e AM y EEH IS] 

Confidence Interval SHAKER, RUA 95% 

Influence Statistics: 设置 诊断 影响 点 的 统计 量 选项 

"&DfBeta(s) Difference in Beta 的 缩写 ,表示 不 考虑 该 观察 值 后 回归 
系数 的 变化 值 

他 Standardized DfBeta(s) 宇 标准 化 的 DfBeta， 当 它 大 于 2/sqrt(V) 时 ， 该 点 可 能 是 
强 影响 点 

"6DfFit Difference in Fit Value 的 缩写 , 表示 不 考虑 该 观察 值 后 
预测 值 的 变化 值 

Standardized DfFit 一 标准 化 的 DfFit 值 ， 当 它 大 于 2/sqrt(V) 时 ， 该 点 可 能 是 
强 影 响 点 

Covariance ratio 号 在 多 重 回归 中 ， 表 示 不 考虑 该 观察 值 后 协 方差 矩阵 与 


含 该 观察 值 协 方差 矩阵 的 比率 。 它 的 绝对 值 大 于 
i 3*P/N 时 ， 该 点 可 能 为 强 影响 点 
Save to New File: 保存 结果 到 新 文件 ， 软 认 在 当前 数据 集中 生成 新 的 变量 
Coefficient statistics 一 可 以 将 新 变量 保存 到 新 的 SPSS 数据 文件 中 
JBProduceallpartial lots 一 绘制 出 模型 中 每 一 个 自 变 量 与 应 变量 残 差 的 散 点 图 


单 击 图 8-4 下 方 的 Options.…. 按 钮 ， 弹 出 Options 子 对 话 框 〈 见 图 8-8). 





C Use F value Help 


hum 


Iv Include constant in equation 
Missing Values 

@ Exclude cases listwise 

(^ Exclude cases pairwise 
^ Replace with mean 








图 8-8 Options 子 对 话 框 


3 操作 选项 说 明 


Include constant in equation “一 模型 中 是 否 包含 常数 项 ， 默 认 选 择 
Missing Values: 设置 缺失 值 的 处 理 方式 


Exclude cases listwise 宇 凡 是 有 缺失 值 的 记录 都 不 分 析 
Exclude cases pairwise 号 在 多 重 回归 中 ， 不 分 析 进 入 模型 变量 有 缺失 的 记录 
Replace with mean 宇 用 该 变量 的 均 数 来 替代 缺失 值 


简单 线性 回归 与 相关 EBRED 


3. 实例 描述 

某 地 方 病 研究 所 调查 了 8 名 正常 儿童 的 尿 肌 本 含量 (mmol/24h) 见 表 
8-1 (上 见 配 书 光 盘 中 的 数据 文件 data8-1.xls 或 data8-1.sav)。 估 计 尿 肌 本 含量 O) 对 其 年 龄 
(x) 的 回归 方程 。 


表 8-1 8 名 正常 儿童 的 年 龄 S) 与 尿 肌 酬 含量 (mmol/24h) 


学 生 编 号 1 2 3 4 5 6 7 8 
年 ET x 13 11 9 6 8 10 12 7 
尿 肌 醋 含量 y 3.54 3.01 3.09 2.48 2.56 3.36 3.18 2.65 


ik: 资料 来 自 孙 振 球 , 《医学 统计 学 》 第 二 版 ，184 页 


解 : 首先 绘制 散 点 图 〈 见 图 8-9)， 判 断 两 变量 之 间 有 无 线性 回归 趋势 。 操 作 如 下 : 
单 击 Graphs > Scatter — Simple， 在 打开 的 对 话 框 中 选择 “ 尿 肌 栈 含 量 ” 为 散 点 图 
的 y 轴 ,“ 年 龄 ”为 x 轴 ， 单 击 OK 按钮 。 


3.6 - 


尿 肌 酬 含量 (mmol/24h) 
co oo eo N ~ 
© 
° 
° 
o 


N 
+ 
L 
| 


4 6 8 10 
年 龄 〈 岁 ) 


图 8-9 8 名 正常 儿童 年 龄 与 尿 肌 本 含量 的 散 点 图 


从 图 8-9 中 可 见 ， 年 龄 和 尿 肌 群 含量 有 明显 的 线性 回归 趋势 ， 也 没有 发 现 强 影响 点 ， 
可 以 继续 后 面 的 分 析 。 

接 下 来 应 该 对 应 变量 进行 正 态 性 判断 ， 这 里 数据 少 ， 就 不 进行 判断 了 ， 我 们 可 以 通过 
残 差 分 析 结 果 来 诊断 模型 。 操 作 如 下 : 

单 击 Analyze — Regression 一 Linear， 在 Linear Regression 对 话 框 中 选择 “ 尿 肌 栈 
含量 ”作为 Dependent,“ 年 龄 ”作为 Independent(s); Method SRA X “Enter”; 单 击 Statistics 
按钮 , 选取 “Estimates”、“Model fit", “Durbin-Watson”， 单 击 Continue 按钮 ; 再 单 击 Plots 
按钮 , 选择 “*SRESID” 作 为 y 轴 ,“DEPENDNT” 作 为 x 轴 , 并 选取 “Histogram”、“Normal 
probability plot”， 单 击 Continue 按钮 ， 最 后 单 击 OK 按钮 。 


4. 结果 解释 
如 结果 8-1 所 示 为 拟 合 过 程 中 变量 进入 /退出 模型 的 情况 ， 线 性 回归 中 只 有 一 个 自 变 
量 ， 并 且 是 采取 强行 进入 方法 ， 所 以 只 出 现 一 个 模型 。 该 模型 中 只 有 一 个 自 变 量 “ 年 龄 ”。 


| 213 


与 统计 分 


Variables EnteredRemoved? 


Variables Variables 
Entered Removed Method 
|| [E | Enter | 





a. Ali requested variables entered. 
b. Dependent Variable: 尿 肌 酬 含量 (mmol24h) 


结果 8-1. 拟 合 过 程 中 变量 进入 /退出 模型 的 情况 


如 结果 8-2 所 示 为 模型 的 拟 合 优 度 情况 。 模 型 1 中 相关 系数 R 为 0.882， 决 定 系数 R. 
为 0.778， 校 正 决定 系数 为 0.740。 


Model Summary” 


Adjusted Std. Error of Durbin- 
R Square | R Square | the Estimate Watson 
r [ mp 7 70] 19696 3347 


a. Predictors: (Constant), FE 
b. Dependent Variable: RIE S 8 (mmolr24h) 


结果 8-2 ”模型 的 拟 合 优 度 情况 


如 结果 8-3 所 示 是 对 整个 模型 的 检验 结果 ， 它 是 一 个 方差 分 析 表 。 通 过 前 面 基 本 原理 
的 介绍 ， 可 知 : 线性 回归 模型 实际 上 和 方差 分 析 模 型 是 等 价 的 ， 不 过 方差 分 析 要 求 自 变 量 
为 分 类 变量 。 如 果 你 感 兴趣 可 以 尝试 使 用 GLM 一 Univariate 过 程 ,“ 年 龄 ”以 协 变量 方 
式 纳 入 ， 可 以 得 到 同样 的 结果 。 从 结果 8-3 可 见 ， 所 拟 合 的 回归 模型 天 (87g 20.968, P fü 
为 0.004， 因 此 拟 合 的 模型 是 有 统计 学 意义 的 。 在 线性 回归 中 ， 模 型 中 只 有 一 个 自 变量 ， 
对 模型 的 检验 就 等 价 于 对 回归 系数 的 检验 。 


ANOVA? 


Sum of 
Squares Mean Square 


1 Regression .813 .813 m 968 
Residual .233 .038 
Total 1.046 


a. Predictors: (Constant), 年 龄 
b. Dependent Variable: RIFS 8 (mmolr24h) 


结果 8-3 ”整个 模型 的 检验 结果 


结果 8-4 中 给 出 了 常数 项 和 系数 的 检验 结果 ， 进 行 的 是 检验 。 同 时 还 给 出 了 标 化 / 
未 标 化 系数 ， 在 线性 回归 中 ， 我 们 只 需要 关注 未 标 化 系数 。 由 结果 8-4 可 见 ， 常 数 项 和 自 
变量 “年 龄 ” 均 有 统计 学 意义 ， 而 且 其 P 值 与 回归 模型 的 检验 结果 相等 。 


















Coefficients? 










Unstandardized Standardized 
a Coeficients 


Std. Error Beta 


ka n T 582 .297 5.595 Tu 
.138 .030 4.579 .004 


à. Dependent Variable: PRALES 3B (mmol/24h) 











结果 8-4 ”常数 项 和 系数 的 检验 结果 





简单 线性 回归 与 相 


结果 8-5 中 给 出 了 预测 值 、 残 差 、 标 准 化 残 差 的 描述 统计 量 。 


Residuals Statistics? 


| Maximum | Mean | Sta. Deviation | N — | 


2.9838 
.000 
















Predicted Value 

Std. Predicted Value 

Standard Error of 

Predicted Value 

Adjusted Predicted Value 

Residual 

Std. Residual 

Stud. Residual 

Deleted Residual 

Stud. Deleted Residual 

Mahal. Distance 

Cook's Distance 

Centered Leverage Value 
a. Dependent Variable: RAIES S (mmou24n) 


结果 8-5 ”预测 值 、 残 差 、 标 准 化 残 差 的 描述 统计 量 


如 结果 8-6 所 示 为 残 差 的 直方 图 ， 自 动 添加 了 正 态 曲 线 ， 图 中 残 差分 布 勉强 均匀 ， 但 
由 于 例 数 较 少 ， 此 时 主要 关心 有 无 极端 值 ， 因 此 这 种 分 布 还 是 可 以 接受 的 。 


Dependent Variable: J JJLAT 7$ fit (mmol/24h) 
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如 结果 8-7 R REES P-P 图 为 应 变量 观测 累计 概率 和 模型 预测 值 累 计 概 率 间 
WES P-P 图 ， 同 样 可 以 用 于 观察 残 差分 布 是 否 正 态 。 由 结果 8-7 可 见 ， 散 点 基本 呈 线 性 
趋势 。 

如 结果 8-8 所 示 是 以 尿 肌 栈 含量 观测 值 为 模 轴 ， 学 生化 残 差 为 纵 轴 的 散 点 图 ， 用 于 观 
察 残 差 是否 有 随 应 变量 增 大 而 改变 的 趋势 , 也 就 是 诊断 应 变量 的 独立 性 。 由 结果 8-8 可 见 ， 
各 学 生化 残 差 的 绝对 值 都 不 大 于 2， 未 发 现 有 极端 值 。 
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Dependent Variable: 尿 肌 本 含量 (mmol/24h) 


10— 


Expected Cum Prob 





00 02 04 0.6 08 10 
Observed Cum Prab 


结果 8-7 ” 残 差 的 正 态 P-P 图 


Dependent Variable: FR JLET- £ 5 (mmol/24h) 


Regression Studentized Residual 








mu r T T I T T 
240 2.50 2.80 300 320 340 3.60 


尿 肌 醋 含量 (mmol/24h) 
结果 8-8. ” 尿 肌 本 含量 与 学 生化 残 差 散 点 图 


建立 的 回归 方程 为 : 
$=1.662+ 0.139x 


即 儿童 的 年 龄 每 增加 1 岁 ， 其 24 小 时 尿 肌 栈 含量 增加 0.139mmol。 


8.2 ”加 权 的 简单 线性 回归 


前 一 节 介绍 的 线性 回归 方程 的 最 小 二 乘 估计 方法 对 于 每 个 观测 点 是 同等 看 待 的 ， 确 定 
回归 直线 时 每 个 点 的 残 差 平 方 之 后 的 合计 最 小 。 在 某 些 情况 下 ， 根 据 专业 知识 考虑 并 结合 
实际 数据 ， 某 些 观 察 值 对 于 估计 回归 方程 显得 更 “重要 ”， 而 有 些 并 不 很 “重要 ”， 这 时 可 
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简单 线性 回归 与 相关 ENENE! 
以 考虑 采用 加 权 最 小 二 乘 估 计 (Weighted Least Sum of Squares Estimation). 


8.2.1 ”加权 最 小 二 乘 估计 


假设 各 观测 值 的 权重 为 w;， 得 到 的 回归 方程 就 要 使 加 权 后 的 残 差 平方 和 最 小 。 
SS a2 》 wi(yi — ay — b,x)2 (8-12) 
这 样 得 到 的 回归 系数 和 常数 项 的 计算 公式 为 : 
ywo- (> wow») 





w l 
beo -w (8-13) 
Y ; Qo Low 
Dw 
a cA t sas (8-14) 


在 实际 应 用 中 ， 可 以 根据 数据 的 特点 ， 结 合 研究 目的 选用 不 同 的 权重 来 改善 回归 模型 
的 拟 合 效果 。 例 如 ， 以 某 种 残 差 的 倒数 作为 权重 可 以 减 小 残 差 很 大 的 异常 数据 的 影响 等 。 
对 某 个 利用 最 小 二 乘 估计 建立 的 回归 方程 做 残 差 分 析 ， 从 散 点 图 〈 见 图 8-10) 可 以 看 到 ， 
这 是 一 种 较为 典型 的 残 差 方 差 不 齐 现象 ， 不 符合 模型 的 最 小 二 乘 估计 的 前 提 条 件 。 在 这 种 
情况 下 ， 拟 合 回归 方程 时 残 差 方差 小 的 数据 比 残 差 方差 大 的 数据 的 贡献 更 大 ， 考 虑 用 各 点 
残 差 方差 o? 的 倒数 作为 权重 。 但 是 o 一 般 是 未 知 的 ， 应 充分 利用 残 差 图 的 提示 来 考虑 怎 
么 进行 权重 。 





K 8-10 RÆST 


8.2.2 ”加 权 线 性 回归 方程 的 假设 检验 


对 于 加 权 最 小 二 乘 估计 回归 方程 的 假设 检验 ， 与 普通 最 小 二 乘 估计 类 似 。 方 差分 析 的 
检验 统计 量 为 : 


MS uw SS wll , 
Fy= Hw _ = — Sul —_ 一 ov 0 (8-15) 
MS Rw SS mw (n-2) (by, bul (n-2) 
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RP: 
lys = 9 wy Ow) `w 


8.2.3 ”实例 与 操作 

1. SPSS 操作 提示 

分 析 步 又 及 显示 界面 和 上 一 节 所 讲 的 一 般 线性 回归 是 通用 的 ， 这 里 就 不 再 重复 了 ， 只 
介绍 不 同 的 内 容 。 

WLS Weight HE: 在 该 框 中 选 入 权重 变量 进行 加 权 最 小 二 乘法 的 回归 分 析 。 在 分 析 时 ， 
会 根据 权重 变量 的 大 小 给 予 每 个 记录 不 同 的 权重 值 。 如 有 记录 权重 变量 取 值 非 正 ， 则 对 该 
记录 不 进行 分 析 。 

2. 实例 描述 

某 儿 科 医 师 测 得 10 名 婴儿 的 年 龄 ( 岁 ) 与 其 丝 状 血红 细胞 凝集 素 的 IgG 
水 平 见 表 8-2( 见 配 书 光盘 中 的 数据 文件 data8-2.xls 或 data8-2.sav)。 估 计 IgG 抗体 水 平 (y) 
与 年 龄 (x) 的 线性 回归 方程 。 


表 8-2 10 名 婴儿 的 年 龄 〈 岁 ) 与 其 丝 状 血红 细胞 凝集 素 的 IgG 水 平 


序 号 年 龄 x IgG 抗体 水 平 》 
1 0.11 4.00 
2 0.12 5.10 
3 0.21 9.50 
4 0.30 9.00 
5 0.34 17.20 
6 0.44 14.00 
7 0.56 18.90 
8 0.60 29.40 
9 0.69 22.10 
10 0.80 41.50 


注 ， 资料 来 自 孙 振 球 , 《医学 统计 学 》 第 二 版 ，200 页 


解 ; 首先 绘制 散 点 图 ( 见 图 8-11)， 可 见 IgG 抗体 水 平 与 年 龄 之 间 有 直线 趋势 。 
拟 合 一 般 的 线性 回归 模型 ， 绘 制 残 差 散 点 图 〈 见 图 8-12)， 发 现 应 变量 的 残 差 方差 不 
齐 ， 有 随 自 变 量 增加 而 加 大 的 趋势 。 由 于 不 符合 建立 一 般 线性 回归 模型 的 假设 ， 拟 进行 加 
权 线 性 回归 。 可 以 假定 of? = x 《k 为 常数 )， 即 残 差 方差 与 自 变量 的 平方 成 正比 ， 故 而 取 
w= 一 7。 由 于 在 公式 (8-13) 和 公式 (8-14) 中 常数 上 可 以 消去 ， 所 以 实际 计算 时 权重 为 : 


(8-16) 


w= 


=] = 
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图 8-11 10 名 婴儿 年 龄 与 IgG 抗体 水 平 的 散 点 图 
在 分 析 前 需要 通过 上 式 生成 新 的 权重 变量 w. 
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图 8-12 10 名 婴儿 的 年 龄 与 标 化 残 差 的 散 点 图 


加 权 线 性 回归 中 需要 注意 的 是 : 

° 首先 要 根据 具体 数据 的 特点 计算 出 权重 的 系数 ; 

° 不 能 直接 做 图 ， 即 使 选择 了 Plots 子 对 话 框 中 的 Histogram, Normal probability plot. 

如 果 想 做 图 ， 可 以 在 分 析 过 程 中 将 需要 的 变量 保存 。 

操作 步骤 如 下 : 

单 击 Analyze — Regression — Linear, fE Linear Regression 主 对 话 框 中 选择 “IgG ft 
体 水 平 ? 作 为 Dependent ,“ 年 龄 ”作为 Independent(s), Method 默认 为 “Enter”, WLS Weight 
选 入 “w” Hil; Statistics 按钮 ， 选 取 “Estimates” 和 “Model fit”， 单 击 Continue 按钮 ; 
再 单 击 OK 按钮 。 
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与 统计 分 


结果 解释 
结果 8-9 同样 是 给 出 变量 进入 /退出 模型 的 情况 ， 模 型 中 只 有 一 个 变量 “年 龄 ” 进入 
模型 的 方式 是 “Enter”。 
如 结果 8-10 所 示 是 模型 的 拟 合 优 度 的 情况 ， 丝 状 血 红细胞 凝集 素 的 IgG 水 平 与 年 龄 
的 相关 系数 RR 为 0.949， 决 定 系数 尺 为 0.901， 校 正 决 定 系数 为 0.888. 


Variables Entered/Removed^ ^ 
Variables Variables Adiusted Std. Error of 
Entered Removed Method R Square | R Square | the Estirnate 
FE I | sr 1 — ss] ^ 352592 
a All requested variables entered a Predictors: (Constant), FES 
b Dependent Variable: 196 抗 体 水 平 b Dependent Variable. [gG 抗 体 水 平 
t. Weighted Least Squares Regression - Weighted by w C. Weighted Least Squares Regression - Weighted by w 
结果 8-9 ”变量 进入 /退出 模型 的 情况 结果 8-10 ”模型 的 拟 合 优 度 情 况 


由 结果 8-11 可 见 ， 所 拟 合 的 回归 模型 F 值 为 72.534，P 值 为 0.000， 因 此 拟 合 的 模型 
是 有 统计 学 意义 的 。 注 意 表 下 的 注释 c， 进 行 的 是 加 权 最 小 二 乘 回归 ， 权 重 变量 为 w。 


ANOVA. 


Sum of 
Squares df Mean Square F Sig. 


4 Regression 5869.363 1 5869 953 72534 
Residual 647.412 8 80.927 
Total 6517.375 9 


a Predictors: (Constant), FAS 
b. Dependent Variable: IgGfuPi ok F 
t. Weighted Least Squares Regression - Weighted by w 


结果 8-11 整个 模型 的 检验 结果 


从 结果 8-12 中 可 知 ， 常 数 项 为 -0.172， 检 验 结果 P 值 为 0.874， 无 统计 学 意义 。 变 量 
“年 龄 ”的 回归 系数 为 40.951, P 值 为 0.000， 有 统计 学 意义 ， 与 模型 的 检验 结果 一 致 。 
Coefficients* b 
m= s san 
Coefficients Coeficients 
|8] Std Eror | Bea | 
Em -172 1.051 -164 ET 

40.951 4.808 8517 000 
a Dependent variable: 1gG 抗 体 水 平 
b Weighted Least Squares Regression - Weighted by w 


结果 8-12 常数 项 和 系数 的 检验 结果 
丝 状 血红 细胞 凝集 素 的 IgG 抗体 水 平 (y) 与 年 龄 (x) 的 线性 回归 方程 为 : 
$=-0.172+40.951x 
由 于 该 方程 是 由 婴儿 的 年 龄 来 预测 其 丝 状 血红 细胞 凝集 素 的 IgG 抗体 水 平 , 所 以 年 龄 
的 变化 范围 是 在 婴儿 期 ,方程 可 以 解释 为 婴儿 每 增长 0.1 岁 , 其 丝 状 血红 细胞 凝集 素 的 IgG 
抗体 平均 增加 4.0951。 
X 8-3 是 对 例 8-2 数据 进行 普通 最 小 二 乘 估 计 和 加 权 最 小 二 乘 估 计 的 统计 量 比较 ， 可 


220 | 



















Hyra EHREEÓ 


见 对 于 残 差 方差 不 齐 的 数据 拟 合 线性 回归 方程 时 ， 加 权 最 小 二 乘 估计 效果 比 普 通 最 小 二 乘 
估计 效果 好 。 
Xx 8-3 f 8-2 数据 普通 最 小 二 乘 估计 和 加 权 最小 二 乘 估计 的 比较 


估计 方法 决定 系数 F 
普通 最 小 二 乘 0.848 44.76 
加 权 最 小 二 乘 0.901 72.33 
83 ”简单 线性 相关 


上 两 节 介绍 了 描述 两 个 变量 间 数 量 依存 关系 的 分 析 方 法 。 在 医学 研究 中 ， 当 两 个 变量 
不 分 主 次 时 ， 如 体重 和 肺活量 、 年 龄 和 血压 ， 可 以 通过 线性 相关 来 刻画 它们 之 间 可 能 存在 
的 线性 相关 方向 与 程度 。 


8.3.1 念 


简单 线性 相关 〈Simple Linear Correlation)， 简 称 直线 相关 (Linear Correlation) 或 简 
单 相关 〔Simple Correlation)， 是 分 析 两 个 连续 型 变量 之 间 的 线性 相关 关系 ， 适 用 于 双 变 量 
正 态 分 布 (Bivariate Normal Distribution〉 资 料 。 

线性 相关 的 性 质 可 由 散 点 直观 地 观察 ， 图 8-13 (a) 中 散 点 呈 椭 圆 形 ， 两 变量 呈 同 问 
变化 趋势 ， 称 为 正 相 关 (Positive Correlation); 图 8-13 (b) 中 散 点 呈 椭 圆 形 ， 且 两 变量 呈 
反 向 变化 趋势 ， 称 为 负 相 关 (Negative Correlation); 图 8-13 (e) 中 两 变量 呈 同 向 变化 ， 
散 点 在 一 条 直线 上 ， 称 为 完全 正 相 关 (Perfect Positive Correlation); 图 8-13 O 中 两 变量 
呈 反 向 变化 趋势 ， 且 散 点 在 一 条 直线 上 ， 称 为 完全 负 相 关 (Perfect Negative Correlation); 
图 8-13(c)、(d)、(g) 及 (h) 中 两 变量 没有 直线 相关 关系 , 称 为 零 相 关 (Zero Correlation). 
正 相 关 或 负 相 关 并 不 一 定 表 示 一 个 变量 的 改变 是 另 一 个 变量 变化 的 原因 ， 有 可 能 同 受 另 一 
个 因素 的 影响 。 相 关 分 析 的 任务 就 是 对 相关 关系 给 以 定量 的 描述 。 

















Ocr«1 -l«r«0 r=0 r=0 
(a) (b) (c) (d) 
r=1 r=—1 r=0 r=0 


(e) (f) (g) (h) 
图 8-13 ”直线 相关 示意 图 
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8.3.2 ”线性 相关 系数 的 意义 和 计算 


线性 相关 系数 (Linear Correlation Coefficient) 又 称 Pearson 积 差 相关 系数 (Pearson 
Coefficient of Product-Moment Correlation )， 用 符号 r 表示 样本 相关 系数 。 

相关 系数 说 明 具 有 线性 关系 的 两 个 变量 ， 相 关 关 系 的 密切 程度 和 相关 方向 。 计 算 公 式 为 
|| àj6-30-» ly 


SD [Xo-»* "ists 
相关 系数 > 没有 单位 ， 其 值 为 -1 入 r 和 1。r 的 正 负 表示 相关 方向 ，r 为 正 表示 正 相关 ; 
为 负 表示 负 相关 。r 的 绝对 值 大 小 表示 相关 密切 程度 ，r 绝对 值 越 接 近 1， 表 示 两 变量 相 
关 关 系 越 密切 。r 为 零 表示 零 相 关 ，r 的 绝对 值 等 于 1 表示 完全 相关 。 


8.8.8 ”相关 系数 的 假设 检验 


r 是 样本 相关 系数 ， 是 总 体 相关 系数 p 的 估计 值 。 即 使 从 p =0 的 总 体 中 随机 抽样 ， 由 
于 抽样 误差 的 影响 ， 所 得 + 也 党 不 等 于 0。 故 计算 一 个 样本 的 相关 系数 > 后 ， 需 要 对 总 体 
相关 系数 p 是 否 为 0 进行 假设 检验 。 常 用 上 + 检验， 其 计算 公式 为 


_r-0 r 


s fr (8-18) 





(8-17) 











式 中 ，5; 为 相关 系数 的 标准 误 。 
对 同一 样本 ， 其 相关 系数 r 和 回归 系数 5b 正 负 号 一 致 ， 其 假设 检验 是 等 价 的 。 


8.34 实例 与 操作 

1. 操作 提示 

线性 相关 要 求 两 个 变量 服从 双 变 量 正 态 分 布 ， 如 果 不 服从 ， 则 应 考虑 变量 变换 ， 或 采 
用 等 级 相关 来 分 析 。 

2. 分 析 步 又 

MM 以 便 初 步 判 断 两 个 变量 是 否 有 相关 趋势 ， 该 趋势 是 否 为 直 
线 ， 以 及 数据 有 无 异常 点 

3. acm 

直线 相关 在 SPSS 的 Analyze 菜单 下 的 Correlate 子 菜单 里 实现 。Corelate 子 菜单 包括 
以 下 三 个 内 容 。 

(1) Bivariate 过 程 

用 于 进行 两 个 /多 个 变量 间 的 参数 / 非 参数 相关 分 析 ， 如 果 是 多 个 变量 ， 则 给 出 两 两 相 
关 的 分 析 结 果 。 这 是 Correlate 子 菜单 中 最 常用 的 过 程 。 
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简单 线性 回归 与 相关 EBENE 


(2) Partial 过 程 

这 是 偏 相关 分 析 的 过 程 。 如 果 两 个 变量 取 值 受 其 他 因素 的 影响 ， 可 利用 偏 相 关 分 析 对 
其 他 因素 进行 控制 ， 给 出 在 控制 其 他 因素 后 两 个 变量 的 相关 系数 ， 分 析 思 想 与 协 方差 分 析 
类 似 。 

(3) Distances 过 程 

该 过 程 可 对 同一 变量 内 部 各 观察 单位 间 的 数值 或 各 个 不 同 变量 间 进 行 相 似 性 或 不 相 
似 性 (距离 ) 分 析 ， 用 于 检测 观察 值 接近 程度 或 考察 各 变量 内 在 联系 和 结构 。 可 以 作为 因 
子 分 析 、 聚 类 分 析 和 多 维度 分 析 的 预 分 析 。 

本 章 着 重 讲述 通过 Bivariate 过 程 实现 简单 直线 相关 分 析 。Bivariate 过 程 用 于 两 个 变量 
间 线 性 分 析 时 ， 结 果 给 出 Pearson 积 差 相关 系数 、Kendall 等 级 相关 系数 、Spearman 等 级 相 
关系 数 ， 可 以 根据 资料 分 布 情况 选择 。 下 面 介绍 过 程 界面 、 对 话 框 和 选项 。 

在 菜单 栏 中 单 击 Analyze 一 Correlate 一 Bivariate ( 见 图 8-14)， 弹 出 Bivariate 
Correlations 主 对话 框 ， 见 图 8-15. 


Regression 
Loglinear 
Classify 

Data Reduction 


pm r Kendat taub m 











AM rd 
| Cone Sanples IV. Flag significant correlations 
图 8-14 Correlate 子 菜单 图 8-15 Bivariate Correlations 主 对 话 框 
左 侧 框 内 包含 数据 文件 所 有 的 变量 名 ， 其 他 操作 说 明 如 下 。 
> 操作 选项 说 明 
“S Variables 一 选 入 进行 相关 分 析 的 两 个 变量 。 如 果 选 入 多 个 ,， 则 会 


以 矩阵 的 形式 给 出 两 两 直线 相关 的 分 析 结 果 
Correlation Coefficients: 设置 相关 分 析 指 标 


"BPearson 全 进行 积 差 相 关 分 析 ，, 即 常用 的 相关 分 析 ， 是 默认 选项 

“Kendall’s tau-b -Kendall's 相关 系数 ， 用 于 反映 分 类 变量 一 致 性 的 指 
标 ， 只 能 在 两 个 变量 均 为 有 序 分 类 时 使 用 

"BSpearman 一 Spearman 相关 系数 

Test of Significance: 设置 相关 系数 检验 的 单 双 侧 

-One-tailed c 3-40 
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与 统计 分 


-Two-tailed = XUI 
Flag significant correlations = 在 结果 中 用 星 号 标记 有 统计 学 意义 的 相关 系数 ,默认 
选项 。“*” 表 示 P<0.05 的 系数 ,，“**” 表 示 P<0.01 
的 系数 


单 击 图 8-15 右 下 方 的 Opions... 按 钮 ， 弹 出 Options 子 对 话 框 ( 见 图 8-16)， 用 于 设置 
需要 的 描述 统计 量 和 统计 分 析 。 








8-16 Options 子 对 话 框 


> 操作 选项 说 明 
Statistics: 设置 描述 统计 量 选 项 
Means and standard deviations 他 输出 每 个 变量 的 均 数 和 标准 差 


Tice petuo deri MM 二 输出 每 个 变量 的 离 均 差 平方 和 及 协 方差 阵 
covariances 

Missing Values; 设置 缺失 值 的 处 理 方式 

Exclude cases pairwise cR M PRERNA KEA A BS 

Exclude cases listwise 号 不 分 析 任 一 选 入 的 变量 有 缺失 值 的 记录 ， 而 


无 论 该 缺失 变量 最 终 是 否 进入 模型 
4. 实例 描述 
m 某 地 10 名 一 年 级 女 大 学 生 的 胸围 (cm) 与 肺活量 (L) 数据 见 表 8-4 ( BL 
配 书 光盘 中 的 数据 文件 data8-3.xls EK data8-3.sav)。 试 分 析 两 个 变量 有 无 线性 相关 关系 。 


表 8-4 Hb 10 名 一 年 级 女 大 学 生 的 胸围 (cm) 与 肺活量 (L) 
学 生 编号 1 2 3 4 5 6 7 8 9 10 
胸围 x 72.5 83.9 78.3 88.4 77.1 81.7 78.3 74.8 73.7 79.4 
， 肺活量 y 2.51 3.11 1.91 3.28 2.83 2.86 3.16 1.91 2.98 3.28 


ik. 资料 来 自 孙 振 球 , 《医学 统计 学 》 第 二 版 ，216 页 


82. 首先 应 绘制 散 点 图 ， 以 判断 两 个 变量 之 间 有 无 相关 趋势 ， 以 及 趋势 是 否 呈 直线 ， 
见 图 8-17。 
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图 8-17 10 名 一 年 级 女 大 学 生 胸 围 与 肺活量 的 散 点 图 


从 图 8-17 中 可 见 ， 胸 围 和 肺活量 有 线性 回归 趋势 ， 可 以 继续 后 面 的 分 析 。 操 作 如 下 ; 
在 菜单 栏 中 单 击 Analyze 一 Correlate 一 Bivariate, 在 Bivariate Correlations 对 话 框 中 
选择 “胸围 “肺活量 ?到 Variables f£; WH“ Pearson", “Spearman”, “Two-tailed”, “Flag 


significant correlations"; 单 击 OK 按钮 。 
5. 结果 解释 


如 结果 8-13 所 示 , 变量 间 相 关系 数 是 用 2*2 方 阵 的 形式 给 出 的 。 每 一 行 和 每 一 列 的 两 
个 变量 对 应 的 格子 中 就 是 这 两 个 变量 相关 分 析 结 果 ， 有 三 个 数字 ,分 别 是 相关 系数 、P 值 
和 样本 例 数 。 由 结果 8-13 可 见 ， 胸 围 与 肺活量 之 间 的 相关 系数 为 0.504，P=0.138， 无 统计 


学 意义 。 
Correlations 


Pearson Correlation .504 


Sig. (2-tailed) 438 
N 


10 10 
Pearson Correlation .504 
Sig. (2-tailed) .138 
N 


结果 8-13 Correlations 结果 


肺活量 
1 
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195 曲线 回归 与 非 线性 回归 





在 医学 研究 实践 中 ， 两 个 变量 绝对 的 直线 关系 并 不 多 见 ， 我 们 不 能 用 简单 的 直线 关系 
把 它们 的 关系 准确 地 表达 出 来 。 例 如 ， 血 药 浓度 一 时 间 曲 线 是 先 升 后 降 ， 药 剂量 与 疗效 反 
应 率 之 间 的 关系 呈 曲 线 变 化 趋势 。 有 时 ， 在 局 部 内 两 个 变量 的 关系 也 许 呈 直线 趋势 ， 扩 大 
范围 后 却 显示 出 曲线 趋势 。 如 人 的 生长 发 育 ， 在 某 一 阶段 ， 身 高 与 年 龄 可 以 用 线性 模型 来 
描述 ， 但 是 从 整个 生命 期 看 ， 身 高 与 年 龄 之 间 却 是 明显 的 曲线 关系 。 


91 曲线 直线 化 变换 方法 


当 两 个 变量 关系 为 曲线 趋势 时 ， 如 对 数 曲 线 、 指 数 曲 线 等 ， 可 以 采用 变量 变换 的 方法 
使 其 直线 化 〈Rectification)， 然 后 通过 线性 回归 来 拟 合 模型 。 曲 线 直线 化 是 曲线 拟 合 的 重 
要 手段 。 


9.1.1 变量 的 变换 
所 谓 变量 变换 ， 是 选用 适当 的 函数 将 原始 数据 做 某 种 转换 ， 使 数据 满足 直线 回归 的 应 


用 条 件 。 
例如 ， 假 定 观察 样本 (x; yi), i=1,2, +, n 满足 
$ =b +bx2 (9-1) 
y,x Z B] E J838 EUER. x = x:， 便 可 转化 为 线性 模型 
$= b +bx (9-2) 
又 如 ， 假 定 观察 样本 x,y; )，i=1, 2,…,n 满足 


$ = eorth) (9-3) 
yx 之 间 呈 对 数 函 数 关 系 ， 令 多 =In》 ， 便 可 转化 为 线性 模型 
$" =b tbx (9-4) 





曲线 回归 与 非 线 性 回归 EA 


9.1.2 ”变量 变换 后 实现 线性 回归 的 步骤 


对 于 可 以 通过 变量 变换 实现 线性 化 的 资料 ， 回 归 的 步骤 如 下 。 

UD 绘制 散 点 图 ， 观 察 散 点 分 布 特征 类 似 于 何 种 函数 类 型 。 

(D 按照 所 选 定 的 函数 进行 相应 的 变量 变换 。 

D 对 变换 后 的 数据 建立 直线 回归 模型 。 

[D 拟 合 多 个 相近 的 模型 ， 然 后 通过 比较 各 模型 的 拟 合 优 度 挑选 较为 合适 的 模型 。 


9.1.3 ”实例 与 操作 

1. 实例 描述 

以 不 同 剂量 的 标准 促 肾 上 腺 皮质 激素 释放 因子 CRF (nmol/L) 刺激 离 体 
培养 的 大 鼠 垂 体 前 叶 细胞 ， 监 测 其 垂体 合成 分 泌 肾 上 腺 皮质 激素 ACTH 的 量 (pmol/L). 
根据 表 9-1 ( 见 配 书 光盘 中 的 数据 文件 data9-1.x1s 或 data9-1.sav) 中 测 得 的 5 对 数据 建立 
CRF-ACTH 工作 曲线 。 


表 9-1 标准 CRF 刺激 大 鼠 垂体 前 叶 细胞 分 洲 ACTH 测定 结果 


i 号 x y 
1 0.005 3411 
2 0.050 57.99 
3 0.500 94.49 
4 5.000 128.50 
5 25.000 169.98 


注 ， 资 料 来 自 孙 振 球 , 《医学 统计 学 》 第 二 版 ，210 页 
解 : 用 原始 数据 绘制 散 点 图 〈 见 图 9-1)。 
1750- 
15000-] 
£250] 


100.00 ~ 
o 


ACTH(pmol/L) 


7500-4 


5000 ~ 


o 





25.00 ~ 





J T T T T T 
0.000 5.000 10000 — 15.000 — 20000 25.000 
CRF(nmoll ) 


9-1 (HE ER 3 3EDKISI T ts PE ERR He ROIG GO 80 pa E 


l 227 





KIM 与 统计 分 析 —8 


由 图 9-1 可 以 看 出 ， 两 个 变量 分 布 曲 线 类 似 于 对 数 曲线 乡 = 名 + 户 inx， 故 而 自 变量 x 
取 自 然 对 数 。 观 察 y 与 Inx 的 散 点 图 〈 见 图 9-2)， 二 者 呈 直 线 趋势 ， 可 以 考虑 用 最 小 二 乘 
法 拟 合 y 与 Inx 的 直线 回归 方程 。 


175.00 ~ 
o 


150.00 一 


š 
8 
— 

° 


100.00 — 


75.00 4 


ACTH(pmall ) 
o 








图 9-2 x 做 对 数 变 换 后 与 肾上腺 皮质 激素 的 散 点 图 


计算 x 的 对 数值 生成 新 的 变量 Inx ， 操 作 步 骤 如 下 。 
在 菜单 栏 中 单 击 Transform 一 compute， 在 Target Variable 框 中 输入 “lnx” 作 为 新 变 
量 名 ， 在 Numeric Expression 框 中 输入 “LN(x)” 作 为 新 变量 值 ， 单 击 OK 按钮 。 
接 下 来 就 是 拟 合 y 5 In x 的 直线 回归 方程 , 过 程 和 第 8 章 讲述 的 一 样 , 这 里 不 再 重复 。 
2. 结果 解释 
如 结果 9-1 所 示 为 模型 的 拟 合 优 度 情况 , 显示 模型 的 相关 系数 民 为 0.990, HERM R 
为 0.980， 说 明 该 模型 回归 的 贡献 很 大 ， 表 示 回 归 模 型 拟 合 效 果 好 。 
Model Summary? 
ea | n p Ramae | se | psima 


— Predictors: (Constanj, Inx 
b. Dependent Variable: ACTH(pmoliL) 


结果 9-1 模型 的 拟 合 优 度 情况 





对 拟 合 的 模型 进行 假设 检验 ( 见 结果 9-2), FA 148.086, P 值 为 0.001， 说 明 这 个 
回归 模型 是 有 统计 学 意义 的 。 

结果 9-3 中 给 出 了 包括 常数 项 在 内 的 参数 及 检验 结果 ， 进 行 的 是 1 检验 ， 可 见 常 数 项 
和 ]nx 均 有 统计 学 意义 。 
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线 回归 与 非 线性 回归 


ANOVAP 


Sum of 
Squares Mean Square 


Mo 11567.227 11567.227 本 到 086 m 
Residual 234.335 78.112 
Total 11801.562 


a. Predictors: (Constant), Inx 
b. Dependent Variable: ACTH(pmolL) 


结果 9-2. ”对 拟 合 模型 进行 假设 检验 的 结果 






Coefficients? 
. LED T. 
Coefficients Coefficients 
(Constant 110.060 4.095 26.875 B 
omo | "sees | naal e| aee s| 


a. Dependent Variable: ACTH(gmo/D 










结果 9-3 ”包括 常数 项 在 内 的 参数 及 检验 结果 
建立 回归 方程 为 : 
$=110.060+15.685Inx 
R 9-2 给 出 了 对 原始 资料 的 直线 回归 模型 和 对 数 函 数 模型 的 结果 比较 ， 可 以 看 出 以 x 
对 数 函 数 回归 的 效果 更 好 。 


表 9-2 拟 合 回 归 模 型 的 结果 比较 


模型 名 称 FË P fË RH à 
简单 线性 7.536 0.071 0.715 
曲线 直线 化 148.086 0.001 0.980 


值得 注意 的 是 ， 本 例 是 对 自 变 量 x 进行 变换 ， 然 后 用 最 小 二 乘法 估计 模型 的 参数 ， 可 
以 保证 残 差 平 方 和 最 小 。 但 当 涉 及 对 应 变量 y 实施 线性 变换 (hn =h) 时 ， 因 为 最 小 
二 乘法 只 能 保证 In 了 的 残 差 平 方 和 最 小 ， 不 能 保证 原 变 量 y 的 残 差 平方 和 最 小 ， 所 以 在 这 
种 情况 下 ， 建 议 进行 非 线 性 拟 合 。 
9.2 ”曲线 回归 


对 两 个 变量 间 不 呈 直 线 关 系 的 资料 ， 除 了 上 一 节 介绍 的 使 用 变量 变换 后 的 直线 回归 分 
析 外 ,我们 还 可 以 直接 进行 曲线 拟 合 。 曲 线 拟 合 (Curve Fitting) 是 求解 反映 变量 间 曲 线 关 
系 的 曲线 回归 方程 (Curvilinear Regression Equation〉 的 过 程 。 


9.2.1 一 般 步 又 
曲线 拟 合 的 一 般 步骤 如 下 。 
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DN 与 统计 分 析 — 


D 根据 自 变量 x 和 应 变量 散 点 图 呈现 的 趋势 ， 结 合 专业 知识 及 经 验 选 择 合适 的 曲 
线形 式 。 在 某 些 情 况 下 ， 绘 制 散 点 图 时 采用 一 些 特殊 的 坐标 系 可 能 更 有 利于 揭示 变量 间 的 
关系 ， 更 容易 确定 曲线 方程 的 形式 。 例 如 ， 在 半 对 数 坐 标 系 中 ， 散 点 呈现 较为 明显 的 直线 
趋势 ， 即 可 选用 指数 曲线 $ = eteo 或 对 数 曲 线 了 =bo +b lnx o 

(A) 选用 适当 的 估计 方法 求 得 回归 方程 。 如 果 曲 线形 式 可 表示 为 x 的 某 种 变换 形式 与 
y 的 线性 关系 (例如 ， 对 数 曲 线 $=bo + 户 Inx )， 即 可 采用 “曲线 直线 化 ”的 方法 对 变换 
后 的 z 〈 如 z=lnx) 和 >y 做 最 小 二 乘 拟 合 ; 如 果 曲 线形 式 表示 为 y 的 某 种 变换 形式 分 与 x 
的 线性 关系 〈 例 如 ， 将 指数 曲线 诈 = e0*^9 变换 为 多 = 如 +xz )， 则 可 采用 “ 非 线性 最 小 
—3f" (Nonlinear Least Sum of Squares) 估计 方法 。 

(3) 在 实际 工作 中 , 有 时 可 结合 散 点 图 试 拟 合 几 种 不 同形 式 的 曲线 方程 并 计算 R^, 一 
般 来 说 ，R? 较 大 时 拟 合 效果 较 好 。 但 应 注意 ， 为 了 单纯 地 得 到 较 大 的 R2 ， 模 型 的 形式 可 
能 会 很 复杂 ， 甚 至 使 其 中 的 参数 无 法 解释 实际 意义 ， 这 是 不 可 取 的 。 因 此 ， 要 充分 考虑 专 
业 知 识 ， 结 合 实际 解释 和 应 用 效果 来 确定 最 终 的 曲线 形式 。 

决定 系数 R? 定义 为 

gh pe SS x (9-5) 


|» XYo-» Sa 





9.2.20 SPSS 操作 提示 


Curve Estimation 过 程 是 Regression 的 一 个 内 容 ， 它 可 以 用 于 拟 合 许多 常用 的 曲线 ， 
理论 上 只 要 两 个 变量 间 存 在 某 种 可 以 被 它 描述 的 数量 关系 ， 就 可 以 用 该 过 程 来 分 析 处 理 。 
下 面 介绍 曲线 回归 过 程 会 使 用 到 的 界面 、 对 话 框 及 选项 。 

在 菜单 栏 中 单 击 Analyze 一 Regression 一 Curve Estimation ( 见 图 9-3)， 弹 出 Curve 
Estimation 主 对 话 框 ( 见 图 9-4). 





, Linear 








, 

Classify » ° 
Data Reduction ,| Piney tis 

Multinomial Logistic... 
Scale , : 

Ordinal. 
Nonpar amet: Test , 
Tine Ser , Probit. 
Survival | Nerlinaer.. 
Multiple Response PO eight Estimation 
Missing Value Analysis. 2-Stege Least Squares | 
Complex Samples M teils Sii i Save... 

Kd 9-3 Regression 子 菜单 图 9-4 Curve Estimation 主 对话 框 


左 侧 框 内 包含 数据 所 有 的 变量 名 ， 其 他 操作 说 明 如 下 。 


2: 


hmi EA 


> 操作 选项 说 明 
“Š Dependent 一 选 入 曲线 回归 分 析 的 应 变量 ， 可 以 选 入 多 个 ， 如 果 
这 样 则 对 各 个 应 变量 分 别 拟 合 模型 
Independent: 曲线 回归 分 析 的 自 变量 
"8 Variable 号 选 入 普通 的 自 变量 
Ù Time 一 选择 时 间作 为 自 变量 ， 数 据 为 时 间 序 列 数据 格式 
Models: 曲线 拟 合 的 模型 
根据 两 个 变量 散 点 图 显示 的 曲线 趋势 ， 选 择 适宜 的 拟 合 模型 ， 是 该 对 话 框 的 


重点 

个 Linear 全 拟 合 直线 方程 ， 与 Linear 过 程 的 直线 回归 相同 

® Quadratic cA —ÉK,-btbxtbx? 

"6 Compound : 呈 拟 合 复 合 曲 线 模 型 人》= bo x b" 

8 Growth 全 拟 合 复合 比 级 数 曲 线 模型 $ = e oth 

"8 Logarithmic c4 x EC $$ -by-binx 

"8 Cubic cdd GERA $=b +bx+Pb x + bx 

J $ SWA S HHR $ = eth 

® Exponential SMARA 4E $ = boe” 

Ò Inverse SMED 42 $=b +b /x 

® Power e 4-5 3 3f HRA $ = box” 

人 Logistic SMA Logistic 曲线 模型 =1/(1/u+bo Xb*) 。 选 择 
此 模型 ,“Upper bound” 框 被 激活 ， 输 入 数值 ， 作 
为 上 界 

"8 Case Labels 一 输入 变量 名 ， 对 应 变量 的 不 同 取 值 作为 标签 

人 Include constant in equation ”一 选择 在 方程 中 包含 常数 项 ， 默 认 选 项 

Š Plot models 全 对 模型 做 图 , 包括 原始 数值 的 连 线 图 和 拟 合 模型 的 
曲线 图 ， 它 在 曲线 拟 合 中 是 非常 重要 的 

人 Display ANOVA table 全 选择 显示 模型 检验 的 方差 分 析 表 


单 击 图 9-4 右 下 方 的 Save... 按 钮 ， 弹 出 Save FAHRE CLE] 9-5)， 用 于 设置 存储 中 间 
结果 ， 如 预测 值 、 预 测 值 置信 区 间 、 残 差 等 。 
> 操作 选项 说 明 

Save Variables: 设置 需要 保存 的 变量 

® Predicted values 号 保存 预测 值 

“© Residuals cR E 

人 Prediction intervals 号 保存 预测 值 置信 区 间 ， 在 下 面 下 拉 式 列表 中 输入 置信 度 
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DN 与 统计 分 析 — 


Predict Cases: 在 主 对 话 框 中 选择 “Time” 为 自 变 量 ， 且 在 Save 子 对 话 框 中 选择 保存 
预测 值 时 可 以 使 用 
A Predict from estimation ”一 估计 区 闻 内 所 有 观察 个 案 的 预测 值 


period through last case 
“© Predict through 一 需要 在 下 面 的 “Observation” 中 输入 数值 作为 周期 。 可 
以 估计 时 间 序 列 中 最 后 一 个 观察 个 案 以 后 的 预测 值 





9-5 Save 子 对 话 框 


92.3 ”实例 与 操作 


1. 实例 描述 

用 已 知 浓度 的 免疫 球 蛋 白 A (IgA, hg/ml) 做 火箭 电泳 ， 测 得 火箭 高 度 
(cm) 如 表 9-3 所 示 〔〈 见 配 书 光盘 中 的 数据 文件 data9-2.xls 或 data9-2.sav)。 试 采用 恰当 的 
回归 方程 描述 火箭 高 度 y 与 IgA 浓度 x 之 间 的 关系 。 


表 9-3 火箭 高 度 y 55 IgA 浓度 x 数据 


样品 编号 1 2 3 4 5 6 7 8 
IgA 浓度 x 0.2 0.4 0.6 0.8 1.0 13 1.4 1.6 
火箭 高 度 y — 76 12.3 15:7 18.2 18.7 21.4 22.6 23.8 


注 :资料 来 自 孙 振 球 , 《医学 统计 学 》 第 二 版 ，218 页 
解 : 首先 对 火箭 高 度 和 免疫 球 蛋 白 A 浓度 绘制 散 点 图 〈 见 图 9-6)。 


250-] 
20.03 


150- S 


火箭 高 度 (cm) 
° 


100-4 





T T T y- —w* ^t A m 
02 04 0.6 08 10 12 14 16 


lgA 浓度 (ug/ml) 
图 9-6 免疫 球 蛋 白 A 浓度 与 火箭 高 度 的 散 点 图 


232 | 


曲线 回归 与 非 线 性 回归 ERRINFG 


从 图 9-6 可 以 看 出 ， 二 者 的 斜率 有 逐渐 减缓 的 曲线 趋势 ， 这 里 选用 二 次 曲线 模型 、 三 
次 曲线 模型 和 对 数 曲 线 模型 。 拟 合 三 个 模型 ， 将 三 者 拟 合 情 况 进行 比较 ， 选 择 拟 合 优 度 好 
的 模型 。 

2. 操作 步骤 

在 菜单 栏 中 单 击 Analyze 一 Regression 一 Curve Estimation， 在 Curve Estimation 主 对 话 
框 中 选择 “火箭 高 度 ” 作 为 Dependent(s), “浓度 ”作为 Independent; 选取 “Quadratic”、 
“Logarithmic”, “Cubic”; A; OK 按钮 。 

3. 结果 解释 

结果 9-4 是 对 模型 拟 合 过 程 做 一 些 描述 ， 给 出 应 变量 数量 和 变量 名 、 拟 合 模型 的 数量 
和 类 型 、 自 变量 变量 名 、 回 妇 方 程 包括 常数 项 等 情况 。 


Model Description 
Model Name 
Dependent Variable 
Equation Logarithmic 
Quadratic 


Cubic 
Independent Variable IgA 浓度 (pg/ml) 


Constant Included 
Variable Whose Values Label Observations in 
Plots Unspecified 


Tolerance for Entering Terms in Equations 





结果 9-4 ”模型 拟 合 过 程 的 描述 信息 


结果 9-5 是 对 进行 拟 合 的 样本 例 数 进行 说 明 的 信息 。 
结果 9-6 给 出 变量 拟 合 过 程 的 一 些 情况 。 


Variable Processing Summary 


Dependent | Independent 


8 8 
Ü 0 
0 0 
0 0 
0 0 


结果 9-5 ” 拟 合 的 样本 例 数 的 说 明 信 息 结果 9-6 ”变量 拟 合 过 程 的 一 些 情况 










Case Processing Summary 
Total Cases 
Excluded Cases a 


Number of Positive Values 











Number of Zeros 
Number of Negative Values 


Forecasted Cases 
Newly Created Cases 





Number of Missing User-Missing 


a. Cases with a missing value in any Values Sys M 
tem-Missing 


variable are excluded from the analysis. 


结果 9-7 给 出 所 拟 合 的 三 个 回归 模型 的 检验 报告 ， 包 括 拟 合 优 度 、 模 型 检验 结果 和 各 
个 参数 值 。 结 果 显 示 ， 三 个 回归 模型 均 有 统计 学 意义 。 由 拟 合 优 度 来 确定 最 佳 的 模型 ， 三 
次 方 曲线 的 拟 合 优 度 最 好 ， 应 选择 该 模型 ， 但 是 三 次 方 曲线 的 参数 比较 多 ， 相 对 来 说 更 复 
杂 。 而 对 数 曲 线 模型 的 优 度 也 很 不 错 ， 和 三 次 方 曲线 的 拟 合 优 度 相差 很 小 ， 因 此 选择 对 数 
曲线 模型 。 
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EN 与 统计 分 析 — 


Model Summary and Parameter Estimates 


Dependent Variable: 淡季 高 度 (cm) 











Model sm x p 


FPP Eu | Constant | 
Logarithmic 2 763.499 IE] 18.745 — 777 
Quadratic p: 185.185 BEBE .000 4.091 21.872 Em 
Cubic .994 229.287 .000 1.529 35.202 33. 588 6.471 
Theindependentvariable is IgA zK/&(ug/mD. 
结果 9-7 拟 合 的 三 个 回归 模型 的 检验 报告 

结果 9-8 是 三 个 模型 的 曲线 和 实际 测量 值 的 连 线 情况 ， 对 数 曲 线 和 三 次 方 曲线 对 模型 
拟 合 相差 很 小 , 只 是 在 浓度 小 于 0.20 g/ml 时, 三 次 方 曲线 稍 优 于 对 数 曲 线 。 在 曲线 回归 中 ， 
模型 的 简洁 和 拟 合 优 度 好 坏 一 样 重要 ， 因 此 选择 对 数 曲 线 模型 。 







25 r p 





火箭 高 度 (cm) 




















5 i 1 n 上 d 
0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 
IgA 浓度 (ugm) 


结果 9-8 不 同 模型 的 拟 合 结果 
建立 的 回归 方程 为 : 
$=19.745+7.777]n x 
9-4 给 出 了 该 资料 的 直线 回归 模型 和 对 数 曲 线 模型 的 结果 比较 ， 可 见 两 个 模型 的 拟 
合 结果 是 相同 的 。 


表 9-4 ”两 种 方法 拟 合 回归 模型 的 结果 比较 


模型 名 称 RE FÈ PË 
曲线 直线 化 0.992 763.499 0.000 
对 数 曲 线 0.992 763.499 0.000 


9.3 JERON 


非 线性 回归 是 指 在 应 变量 与 一 系列 自 变量 之 间 建 立 非 线性 模型 。“ 线 性 ”和 “ 非 线性 ” 
并 不 是 说 应 变量 与 自 变量 问 是 直线 或 曲线 关系 ， 而 是 说 应 变量 是 否 能 用 自 变量 的 线性 组 合 
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来 表示 。 如 果 经 过 变量 转换 ， 两 个 变量 可 以 用 线性 表达 其 关系 ， 那 么 可 以 用 前 两 节 介 绍 的 
方法 ， 如 果 经 过 变量 变换 后 ， 两 个 变量 关系 仍然 不 能 用 线性 形式 表达 ， 就 可 用 本 节 介 绍 的 
非 线性 回归 分 析 方 法 。 


9.3.1 基本 原理 


一 般 非 线性 回归 模型 可 表示 为 : 
Hy = f (Bi, Bas Bp. x) (9-6) 

其 中 ，x 为 自 变量 ， 可 以 是 一 个 ， 也 可 以 是 多 个 ;， 记 ,8 ，……, 有 ,为 总 体 回归 系数 :> 是 
关注 的 应 变量 ， yj; 为 给 定 x 时 y 的 总体 均 数 。 模 型 中 除了 自 变量 和 应 变量 的 关系 为 非 线 
性 外 ， 其 他 假定 条 件 与 线性 回归 基本 上 相同 。 

非 线 性 回归 是 通过 迭代 算法 实现 的 。SPSS 采用 的 迭代 算法 有 两 种 ，Levenberg- 
Marquardt 法 和 序列 二 次 规划 法 。 

Levenberg-Marquardt 法 又 叫做 阻尼 最 小 二 乘法 ， 是 对 Gauss-Newton 法 的 改进 。 它 有 
一 个 阻尼 因子 和 4, 用 4 可 以 控制 搜索 步 长 和 方向 。 当 4=0 时 ， 即 为 Gauss-Newton 法 ; `4 4 
一 oo 时 ， 趋 于 零 向 量 ， 即 为 最 速 下 降 法 。Levenberg-Marquardt 法 的 优势 在 于 对 影响 
Gauss-Newton 法 有 效 性 的 病态 二 次 项 ， 也 可 以 通过 阻尼 因子 和 4 来 控制 。 

序列 二 次 规划 法 主要 思路 是 : 形成 基于 拉 格 朗 日 函数 二 次 近似 的 二 次 规划 子 问题 ， 而 
“ 这 些 问题 可 以 用 任意 一 种 二 次 规划 算法 求解 ， 求 得 的 解 用 来 形成 新 的 迭代 公式 ， 作 为 下 一 
次 搜索 的 依据 。 用 序列 二 次 规划 算法 求解 非 线 性 有 约束 问题 时 的 迭代 次 数 常 比 求解 无 约束 
问题 时 少 ， 因 为 在 搜索 区 域内 ， 序 列 二 次 规划 算法 可 以 获得 最 佳 的 搜索 步 长 和 方向 信息 。 


9.3.0 SPSS 操作 提示 


非 线性 回归 分 析 中 应 变量 和 自 变量 要 求 是 定量 变量 ， 如 果 自 变量 是 分 类 变量 ， 则 应 先 
转换 为 二 分 类 的 哑 变 量 。 

操作 步骤 如 下 : 

在 菜单 栏 中 单 击 Analyze 一 Regression — Nonlinear ( 见 图 9-7)， 弹 出 Nonlinear 
Regression 主 对 话 框 〈 见 图 9-8). 


id "disaer T 














ne ^| Curve Estimation... 
Classi fy » 
D ess s; " Ë Binary Logistic 
ata Re 
Multinomial Logistic... 
Scale » Y 
Ordinal... 
Nonparametric Test: » 
Probit... 
Time Seri » 
Survival » 
Multiple Response d Yeight Estimation... pe 
Missing Yelue Analysis. 2-Stege Least Squares. | -2J Delte | |CDFNORM(zvalue] 
| 


Complex Samples » 


j see. | Oire. | 


Optimal Scaling. š | 








9-7 选择 Nonlinear 选项 图 9-8 Nonlinear Regression 主 对 话 框 
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与 统计 分 


> 操作 选项 说 明 
Dependent 一 选 入 非 线 性 回归 模型 的 应 变量 。 应 变量 应 是 数值 型 的 ， 
如 果 为 分 类 变量 ， 则 在 分 析 前 应 进行 转换 
“Model Expression 一 模型 表达 式 ， 输 入 的 模型 至 少 应 色 含 一 个 自 变量 
Functions 之 给 出 了 各 种 可 能 用 到 的 数学 函数 


单 击 图 9-8 左边 的 Parameters... 按 钮 ， 弹 出 Parameters 子 对 话 框 ( 见 图 9-9). 

进行 迭代 计算 来 确定 模型 参数 ， 首 先 必 须 给 定 参 数 的 初 值 。 在 Parameters 子 对 话 框 内 
指定 模型 参数 的 初 值 。 

将 参数 的 初 值 全 部 设置 好 后 , 参数 及 对 应 的 初 值 会 显示 在 Nonlinear Regression 主 对 话 
HEHP Parameters... 按 钮 下 面 的 框 内 。 





图 9-9 Parameters 子 对 话 框 


> 操作 选项 说 明 
“Name 二 指定 参数 的 名 称 ， 必 须 是 合法 的 ， 并 且 是 模型 表达 式 
中 使 用 的 名 称 
-Stirting Value 二 指定 参数 的 初 值 。 初 值 越 接 近 最 终 确定 的 参数 真 值 越 


好 。 所 有 参数 都 需要 指定 初 值 ， 不 合适 的 初 值 会 导致 
和 迭代 不 收 伊 或 建立 的 模型 只 对 部 分 数据 有 效 。 将 前 次 
计算 的 参数 结果 作为 当前 初 值 ， 可 以 增加 计算 的 精度 
Use starting value from — 写 是 否 将 以 前 进行 的 非 线性 回归 分 析 所 获得 的 参数 值 作 
previous analysis 为 初始 值 。 如 果 选 中 该 选项 ， 它 将 取代 事先 指定 的 初 
始 值 。 该 选项 在 后 面 的 分 析 中 一 直 起 作用 ， 所 以 当 变 

换 模 型 时 ， 务 必 不 要 忘记 取消 该 选项 


单 击 图 9-8 下 方 的 Loss... 按 钮 ， 弹 出 Loss Function 子 对 话 框 〈 见 图 9-10)， 用 于 设置 
损失 函数 ， 是 指 非 线性 回归 中 通过 运算 使 之 最 小 化 的 函数 ， 必 要 时 损失 函数 可 以 分 区 段 表 


7o 
> 操作 选项 说 明 
Sum of squared residuals “一 以 残 差 平方 和 为 损失 函数 ,此 时 拟 合 的 就 是 最 小 二 乘法 
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User-defined loss function 一 用 户 自 定义 其 他 损失 函数 ,可 以 从 左 侧 的 备 选 变量 框 中 
选择 。 如 RESID_**2， 表 示 的 就 是 最 小 二 乘法 














图 9-10 Loss Function 子 对话 框 


单 击 图 9-8 下 方 的 Constraints... 按 钮 ,弹出 Parameter Constraints 子 对话 框 ( 见 图 9-115, 
用 于 设置 参数 约束 ， 是 针对 在 得 到 最 终 参 数值 的 迭代 过 程 中 所 允许 参数 的 取 值 范 围 而 言 
的 。 





图 9-11 Parameter Constraints 子 对 话 框 


> 操作 选项 说 明 
"GUnconstrained 全 不 对 参数 进行 约束 
Define parameter constraint 号 定义 参数 约束 表达 式 ， 可 以 是 等 式 、 不 等 式 


单 击 图 9-8 下 方 的 Save... 按 钮 ， 弹 出 Save 子 对 话 框 ( 见 图 9-12)， 用 于 设置 需要 保存 
的 统计 量 。 





图 9-12 Save 子 对 话 框 


> 操作 选项 说 明 
Predicted values c MM 
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与 统计 分 


Residuals = fF X X 
Derivatives i 号 保存 导数 
“Loss function values c AH AR A sh 3k 6545 


这 些 统计 量 在 分 析 模 型 的 拟 合 程度 或 检查 可 能 有 问题 的 观察 值 时 很 有 用 。 
单 击 图 9-8 下 方 的 Options... 按 钮 ， 弹 出 Options 子 对 话 框 〈 见 图 9-13)， 用 于 设置 与 分 
析 方 法 有 关 的 选项 。 








图 9-13 Options 子 对 话 框 


> 操作 选项 说 明 


Bootstrap estimates of standard error Bootstrap 抽样 方法 估计 参数 的 标准 差 
Estimation Method: 设置 参数 的 估计 方法 


Sequential quadratic programming 一 序列 二 次 规划 法 
Levenberg-Marquardt -Levenberg-Marquardt 法 , 为 系统 默认 选项 
Sequential Quadratic Pogramming: 设置 序列 二 次 规划 法 相关 选项 
“Maximum iterations 号 最 大 迭代 次 数 
Step limit 一 步 数 限制 
Optimality tolerance 一 最 优 容 限 

-人 Function precision 一 目标 函数 精度 
Infinite step size 一 无 约束 步 数 
Levenberg-Marquardt: 设置 Levenberg-Marquardt 法 相关 选项 
Maximum iterations : 一 最 大 和 迭代 次 数 

-人 Sum-of-squares convergence 一 平方 和 的 收敛 容 限 
Parameter convergence Lx ces 


9.3.8 ”实例 与 操作 

1. 实例 描述 

-位 医院 管理 人 员 想 建立 一 个 回归 模型 , 对 重伤 病人 出 院 后 的 长 期 恢复 
情况 进行 预测 。 自 变量 为 病人 住院 天 数 (x), 应 变量 为 病人 出 院 后 长 期 恢复 的 预后 指数 (y)， 
指数 取 值 越 大 表示 预后 结局 越 好 。 数 据 见 表 9-5 ( 见 配 书 光 盘 中 的 数据 文件 data9-3.xls 和 
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data9-3.sav )。 


表 9-5 15 名 重伤 病人 的 住院 天 数 x (天 ) 与 预后 指数 y 
编 号 1 2 3 4 5 6 7 8 9 10 11 R B 44 
住院 天 数 x 2 5 7 10 14 19 26 3l 34 38 45 52 53 60 
预后 指数 y 54 50 45 37 35 25 20 16 18 13 8 11 8 4 


注资 料 来 自 孙 振 球 , 《医学 统计 学 》 第 二 版 ，211 页 
解 : 首先 绘制 散 点 图 ， 如 图 9-14 所 示 。 


预后 指数 








T T I T T T T T 
0 10 20 30 40 50 80 70 


住院 天 数 CAO 
图 9-14 15 名 重伤 病人 住院 天 数 与 预后 指数 的 散 点 图 


对 两 个 变量 可 尝试 拟 合 指数 曲线 如 放 = e^? ， 对 应 变量 y 做 自然 对 数 变换 ， 得 到 ; 
y'=Iny。 观 察 y' 与 x 的 散 点 图 ( 见 图 9-15)，y' 与 x 呈 直 线 趋势 。 注 意 ， 如 果 此 时 用 最 
小 二 乘法 拟 合 y' 与 x 的 直线 回归 方程 站 =bo + hx， 之 后 再 将 其 结果 代 回 S=, WAE 
到 的 方程 不 能 保证 残 差 平方 和 9 (y — 9" 最 小 ， 因 为 此 时 方程 和 =bo+bx 只 保证 了 
YX0-$5Y 最 小 。 非 线性 回归 中 的 和 迭代 算法 得 到 方程 9 = etm+az) ， 可 以 保证 残 差 平方 和 


2 (0?- 习 ”最 小 。 
2. 操作 步骤 


在 菜单 栏 中 单 击 Analyze 一 Regression 一 Nonlinear, 在 Nonlinear Regression 主 对 话 
框 中 ， 选 择 “ 预 后 指数 ”作为 Dependent， 在 Model Expression 框 中 输入 “EXP(atb*x)”; 
单 击 Parameters 按钮 ， 在 Name 框 中 输入 “a” Starting Value 框 中 输入 “4”， 单 击 Add 按 
Hl: 在 Name 框 中 再 输入 “b”，Starting Value 框 中 再 输入 “-0.04”， 单 击 Add 按钮 ， 然 后 
单 击 Continue 按钮 ， 最 后 单 击 OK 按钮 。 

参数 初始 值 “4” 与 “-0.04” 是 根据 曲线 直线 化 后 的 最 小 二 乘法 拟 合 的 模型 参数 进行 


估计 的 。 
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图 9-15 yy' 与 x 的 散 点 图 


3， 结 果 解 释 
结果 9-9 给 出 了 每 一 个 迭代 步骤 中 各 次 的 残 差 、 参 数 计算 值 。 迭 代 经 过 8 次 模型 计算 
和 4 次 求 导 计算 后 终止 ， 两 次 相 邻 计算 的 残 差 平方 和 的 差 值 几乎 等 于 1.00E-008。 


Iteration History? 


Residual 
Sum of Parameter 
4.000 


Iteration Number" Squares 





Derivatives are calculated numerically. 


a. Major iteration number is displayed to the left of 
the decimal, and minor iteration number is to the 
right of the decimal. 


b. Run stopped after 8 model evaluations and 4 
derivative evaluations because the relative 
reduction between successive residual sums of 
squares is at most SSCON = 1.00E-008. 


结果 9-9 每 一 个 迭代 步骤 中 各 次 的 残 差 、 参 数 计算 值 


结果 9-10 给 出 了 参数 估计 值 、 渐 近 标 准 差 和 渐 近 95 多 置信 区 间 。 参 数 a 的 估计 值 为 
4.071， 参 数 b 的 估计 值 为 -0.040。 两 者 的 95% 置 信 区 间 均 不 包括 0， 表 明 参 数 a 和 参数 b 
均 有 统计 学 意义 。 

结果 9-11 给 出 了 参数 a 和 参数 b 相关 系数 ， 为 -0.707。 
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Parameter Estimates 


pep psp a a 
Parameter | Estimate | Std. Error 
4.071 .025 4.017 4.125 


结果 9-10 Parameter Estimates 信息 






Correlations of Parameter Estimates 
| | a | b | 
1.000 -.707 
- 707 1.000 
结果 9-11 参数 a 和 参数 b 相关 系数 信息 


结果 9-12 给 出 了 非 线性 回归 模型 的 检验 结果 , 包括 回归 项 、 残 差 项 、 没 有 校正 和 校正 
后 总 的 自由 度 、 平 方 和 与 均 方 的 大 小 。 决 定 系数 R2 为 0.987， 表 明 所 得 回归 模型 拟 合 效果 
很 好 。 


Regression . 6030.270 


Residual . 3.805 
Uncorrected Total |12110.000 
Corrected Total 3943.333 
De pen dent variable: IUTER 
a. R squared = 1 - (Residual Sum of Squares) / 
(Corrected Sum of Squares) = .987. 


结果 9-12” 非 线性 回归 模型 的 检验 结果 





建立 的 回归 方程 为 : 
$e 01-0069 


表 9-6 给 出 了 进行 曲线 直线 化 后 回归 和 非 线性 回归 的 结果 比较 。 


39-6 拟 合 回归 模型 的 结果 比较 


模型 名 称 R: a b 
曲线 直线 化 回归 0.955 4.037 -0.038 
非 线性 回归 0.987 4.071 -0.040 


AR 9-6 中 可 见 ， 采 用 非 线 性 回归 所 得 的 结果 比 直线 化 后 线性 回归 所 得 的 结果 有 所 改 
善 


G o 


| 244 


第 I) 章 ”多重 线性 回归 与 相关 





多 重 线性 回归 (Multiple Linear Regression? 与 多 重 相 关 (Multiple Correlation) 是 研究 
多 个 变量 之 间 的 线性 依存 及 线性 相关 的 统计 分 析 方 法 。 

在 医学 研究 中 ， 我 们 会 发 现 医 学 指标 通常 受到 多 个 因素 的 影响 ， 如 血压 值 除 了 受 年 龄 
影响 外 ， 还 受到 性 别 、 体 重 、 劳 动 强 度 、 饮 食 习惯 、 吸 烟 情 况 、 饮 酒 情况 、 家 庭 史 等 因素 
影响 。 用 回归 方程 定量 描述 一 个 应 变量 y 与 多 个 自 变量 x,x2,… 间 的 线性 依存 关系 ， 称 为 
多 重 线性 回归 ， 自 变量 的 值 可 以 是 随机 的 ， 也 可 以 是 人 为 固定 的 ， 但 应 变量 则 要 求 一 定 是 
随机 的 。 

如 果 所 有 自 变量 与 应 变量 都 是 随机 的 ， 则 可 用 多 重 相 关 来 描述 应 变量 和 一 组 自 变 量 之 
间 的 线性 关系 ， 用 偏 相关 〈Partial Correlation) 描述 在 控制 其 他 变量 影响 后 应 变量 和 某 一 
个 自 变 量 之 间 的 线性 相关 关系 。 


10.1 多 项 式 回 归 


多 项 式 回 归 (Polynomial Regression) 又 称 为 抛物 线 (Parabola) 回归 ， 是 使 用 多 项 式 
来 描述 x 与 y 的 回归 关系 。 
数学 上 上， 所谓 的 多 项 式 函 数 (Polynomial Function) 定义 为 ; 
y=a+bx+bx2?2+---+b,xP (10-1) 
上 式 称 为 p 次 多 项 式 或 p 次 抛物 线 ， 随 着 p 的 增 大 该 曲线 形状 亦 趋 复杂 ， 其 中 含有 的 
极 值 点 、 拐 点 亦 会 增多 ， 所 以 尽量 选用 p 较 小 的 抛物 线 回归 。 
其 中 最 简单 的 形式 为 二 阶 多 项 式 : 
y=a+bx+b.x2 (10-2) 
在 研究 中 ， 当 观察 到 数据 y 和 x 的 散 点 图 近似 一 条 抛物 线 时 ， 可 以 令 
Xj-x, n =x 


模型 (10-2) 转化 为 : 


多 重 线性 回归 与 相关 A 


Hylx = A+ Bx + Cx; (10-3) 
这 样 把 曲线 拟 合 的 问题 转化 为 线性 回归 求解 ， 由 于 并 没有 对 y 进行 变换 ， 因 此 可 以 通 
过 多 重 线性 回归 的 方法 来 推断 回归 的 统计 学 意义 和 决定 系数 。 


10.2 ”多 重 回归 分 析 方 法 


多 重 线性 回归 (Multiple Linear Regression) 是 简单 直线 回归 的 推广 ， 研 究 一 个 应 变量 
与 多 个 自 变量 之 间 的 数量 依存 关系 。 


10.2.1 多 重 回 归 模 型 


多 重 线性 回归 的 数学 模型 为 : 
y= Bo + Bix +--+ BpXp +E (10-4) 
RH, y 为 应 变量 , 是 随机 定量 的 观察 值 ， x1 ,…,xy p 个 自 变 量 。PBo 为 常数 项 ，P1,…, B, 
称 为 偏 回归 系数 (Partial Regression Coefficient). Bj(j =1,2,…,p) 表示 在 其 他 自 变 量 固定 
不 变 的 情况 下 ， 自 变量 xj; 每 改变 一 个 单位 时 ， 其 单独 引起 应 变量 y 的 平均 改变 量 。 为 随 
机 误差 , 又 称 为 残 差 (Residual), 它 是 y 的 变化 中 不 能 用 自 变 量 解 释 的 部 分 , RA NO0?) 
分 布 。 
由 样本 估计 的 多 重 线性 回归 方程 为 : 
$=bot+hxit+...+bpxp (10-5) 
式 中 ， 乡 为 在 各 x 取 一 组 定 值 时 ， 应 变量 y 的 平均 估计 值 或 平均 预测 值 。 bo,b,…,bp 是 
Bo. Bi. Bp 的 样本 估计 和 值 。 
不 能 直接 用 各 自 变量 的 普通 偏 回 归 系 数 的 数值 大 小 来 比较 方程 中 它们 对 应 变量 y 的 
贡献 大 小 ， 因 为 p 个 自 变 量 的 计量 单位 及 变异 度 不 同 。 可 将 原始 数据 进行 标准 化 ， 即 
xy = (10-6) 
Sj 
然后 用 标准 化 的 数据 进行 回归 模型 拟 合 ， 此 时 获得 的 回归 系数 记 为 五 ,Kk2,…,k。 ， 称 为 标准 
化 偏 回 归 系 数 (Standardized Partial Regression Coefficient), X *& A ìf 42 A% E (Path 
Coefficient)。 标 准 化 偏 回 归 系 数 kj 绝对 值 较 大 的 自 变 量 对 应 变量 y 的 贡献 大 。 


10.2.2 参数 估计 


多 重 线性 回归 分 析 的 前 提 条 件 和 简单 线性 回归 完全 相同 : 线性 、 独 立 、 正 态 和 等 方差 ， 
Bl] LINE. 

多 重 线性 回归 分 析 中 回归 系数 的 估计 也 是 通过 最 小 二 乘法 (Method of Least Square), 
即 寻 找 适宜 的 系数 bo,hh,…,by 使 得 应 变量 残 差 平 方 和 达到 最 小 。 其 基本 原理 是 : 利用 观察 
或 收集 到 的 应 变量 和 自 变 量 的 一 组 数据 建立 一 个 线性 函数 模型 ， 使 得 这 个 模型 的 理论 值 与 
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观察 值 之 间 的 离 均 差 平方 和 最 小 。 


10.2.3 回归 方程 的 假设 检验 与 配合 适度 评价 


建立 的 回归 方程 是 否 符合 资料 特点 ， 以 及 能 和 否 恰当 地 反映 应 变量 y 与 p 个 自 变量 的 数 
量 依存 关系 ， 就 必须 对 该 模型 进行 检验 。 
1， 回 归 方程 的 检验 与 评价 
无 效 假设 Ho: B= 1 =…= 有 =0; 备 择 假设 Hi: &B;G-,2, p) 4 XO. fu 
验 统计 量 为 F ， 计 算 公式 为 : 
SS wp MS m 


F= —— = (10-7) 
SS #/(n—p—1) MS s 


2. 自 变量 的 假设 检验 

(1) 偏 回 归 平 方 和 检验 

回归 方程 中 某 一 自 变量 x; 的 偏 回归 平方 和 《〈Sum of Squares for Partial Regression)， 表 
示 从 模型 中 剔除 xj 后 引起 的 回归 平方 和 的 减少 量 。 偏 回归 平方 和 用 SS wa( xj ) 表 示 ， 其 大 
小 说 明 相应 自 变量 的 重要 性 。 

检验 统计 量 下 的 计算 公式 为 : 

Sa (10-8) 
SSa /(n— p—1) 

(2) 偏 回归 系数 的 上 检验 

偏 回归 系数 的 检验 是 在 回归 方程 具有 统计 学 意义 的 情况 下 ， 检 验 某 个 总 体 偏 回归 系 
数 是 否 等 于 0 的 假设 检验 ， 以 判断 相应 的 自 变量 是 否 对 应 变量 y 的 变异 确 有 贡献 。 

Ho: B;=0, Hi: Bj 20 

检验 统计 量 1 的 计算 公式 为 : 

(10-9) 


其 中 ， Sy 为 第 7 偏 回归 系数 的 标准 误 。 


10.234 自 变量 的 选择 


在 许多 多 重 线性 回归 中 ， 模 型 中 包含 的 自 变 量 没 有 办 法 事先 确定 ， 如 果 把 一 些 不 重要 
的 或 者 对 应 变量 影响 很 弱 的 变量 引入 模型 ， 则 会 降低 模型 的 精度 。 所 以 自 变量 的 选择 是 必 
要 的 ， 其 基本 思路 是 : 尽 可 能 将 对 应 变量 影响 强 的 自 变量 选 入 回归 方程 中 ， 并 尽 可 能 将 对 
应 变量 影响 弱 的 自 变量 排除 在 外 ， 即 建立 所 谓 的 “最 优 ” 方 程 。 
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1. 筛选 标准 与 原则 

对 于 自 变 量 各 种 不 同 组 合 建立 的 回归 模型 ， 使 用 全 局 择优 法 选择 “最 优 ” 的 回归 模型 。 

(1) 残 差 平方 和 缩小 与 决定 系数 增 大 

如 果 引 入 一 个 自 变 量 后 模型 的 残 差 平方 和 减少 很 多 ， 那 么 说 明 该 自 变 量 对 应 变量 y 贡 
献 大 ， 将 其 引入 模型 ， 反 之 ， 说 明 该 自 变量 对 应 变量 y 贡献 小 ， 不 应 将 其 引入 模型 。 另 一 
方面 ， 如 果 某 一 变量 剔除 后 模型 的 残 差 平方 和 增加 很 多 ， 则 说 明 该 自 变 量 对 应 变量 y 贡献 
大 ， 不 应 被 剔除 ， 反 之 ， 说 明 该 自 变量 对 应 变量 贡献 小 ， 应 被 剔除 。 决 定 系 数 增 大 与 残 
差 平方 和 缩小 完全 等 价 。 

(2) 残 差 均 方 缩小 与 调整 决定 系数 增 大 

残 差 均 方 缩小 的 准则 是 在 残 差 平方 和 缩小 准则 基础 上 增加 了 (n— p- D 因子 , 它 随 模 
型 中 自 变 量 p 的 增加 而 增加 ， 体 现 出 对 模型 中 自 变 量 个 数 增加 所 实施 的 惩罚 。 调 整 决 定 系 
数 增 大 与 残 差 均 方 缩小 完全 等 价 。 

(3) C, 统计 量 

H C.L.Mallows (1964 年 ) 提出 ， 其 定义 为 : 

C, = Sa ag- n (10-10) 


式 中 ，6 为 全 模型 的 残 差 均 方 估计 ;gq 为 所 选 模 型 中 (包括 常数 项 ) 的 自 变量 个 数 。 

如 果 含 g 个 自 变量 的 模型 是 合适 的 ， 则 其 残 差 平方 和 的 期 望 E(SS% 关 )=(n 一 p)o”。 假 
定 全 模型 的 残 差 均 方 估计 的 期 望 E(6?)=o? 为 真 ， 则 55% 关 /6 近似 等 于 (一 中， 因此 Cr 
的 期 望 近似 等 于 模型 中 参数 的 个 数 ， 即 E(Cp)=g 。 用 Cp 值 对 参数 个 数 g 绘 制 散 点 图 ， 将 
显示 “合适 模型 ”的 散 点 在 直线 C =4 附近 ， 拟 合 不 佳 的 模型 远离 此 线 。 


2. 自 变量 筛选 常用 方法 

(1) 前 进 法 (Forward Selection) 

事先 定 一 个 选 入 自 变量 的 标准 。 开 始 时 ， 方 程 中 只 含 常数 项 ， 按 自 变量 对 y 的 贡献 大 
小 由 大 到 小 依次 选 入 方程 。 每 先入 一 个 自 变 量 ， 则 要 重新 计算 方程 外 各 自 变量 (剔除 已 选 
入 变量 的 影响 后 ) 对 y 的 贡献 ， 直 到 方程 外 变量 均 达 不 到 选 入 标准 为 止 。 变 量 一 旦 进入 模 
型 ， 就 不 会 被 剔除 。 

(2) 后 退 法 (Backward Selection) 

事先 定 一 个 日 除 自 变 量 的 标准 。 开 始 时 ， 方 程 中 包含 全 部 自 变 量 ， 按 自 变 量 对 y 的 贡 
献 大 小 由 小 到 大 依次 剔除 。 每 史 除 一 个 变量 ， 则 重新 计算 未 被 剔除 的 各 变量 对 y 的 贡献 大 
小 , 直到 方程 中 所 有 变量 均 不 符合 剔除 标准 , 没有 变量 可 被 剔除 为 止 。 自 变量 一 旦 被 剔除 ， 
则 不 考虑 进入 模型 。 

(3) 逐步 回归 法 (Stepwise Selection) 

本 法 区 别 于 前 进 法 的 根本 之 处 是 : 每 引入 一 个 自 变 量 ， 都 会 对 已 在 方程 中 的 变量 进行 
检验 ， 对 符合 剔除 标准 的 变量 要 逐一 剔除 。 
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10.2.5 SPSS 操作 提示 


多 重 线性 回归 也 是 通过 SPSS 的 Analyze 菜单 下 Regression 子 菜单 里 的 Linear 过 程 实 
现 ， 分 析 的 适用 条 件 和 步骤 都 与 直线 回归 非常 相似 ， 大 家 可 以 参考 第 8 章 相 应 的 内 容 。 
此 外 ， 多 重 线性 回归 对 样本 含量 的 要 求 虽 然 没 有 公认 的 计算 公式 ， 但 有 学 者 认为 记录 
数 应 当 是 分 析 自 变量 数 的 $ 一 10 倍 以 上 。 少 于 此 数 ， 可 能 出 现 检验 效能 不 足 的 问题 。 
a 操作 提示 


在 菜单 栏 中 单 击 Analyze 一 Regression — Linear( 见 图 10-1), 弹出 Linear Regression 
EXE E 10-2)， 大 部 分 内 容 在 第 8 章 已 做 了 介绍 ， 这 里 就 只 对 多 重 线 性 回归 中 特 
殊 的 选项 做 介绍 。 


使 载 酯 蛋白 blmg/dl x2: 
D SERIES E(mo/d) [x3 


ESSET 3 (mg/d) 





Loglinear ^| Curve Estimation..' 


Binary Logistic 
Multinomial Logistic... 











à , 
, 

gonperenetric Test: p| 0s 

is po Brobit.. 

Survival b| Eonlinaer 

Multiple Response » Weight Estimation. 

Missin g Value Analysis 2-Stage Least Squares... 

Complex Samples » 

Optimal Scaling 
图 10-1 Regression f 3 图 10-2 Linear Regression 主 对 话 框 

> 操作 选项 说 明 


Block = d] Previous 和 Next 两 个 按钮 组 成 ， 用 于 将 “Independent” 框 内 选 入 
的 自 变量 分 组 。 在 多 重 线性 回归 中 ， 自 变量 的 选 入 方式 有 3 种 ， 当 
对 不 同 的 自 变量 选 入 方式 不 同时 ， 可 用 该 按钮 将 自 变量 分 组 选 入 
Method: 自 变量 的 选 入 方式 


“Enter 一 强行 进入 法 ， 候 选 的 自 变量 不 做 筛选 全 部 选 入 模型 
Stepwise 一 逐步 法 ， 根 据 在 Options 子 对 话 框 中 设 定 的 选 入 标准 和 剔除 标准 进 
行 变量 筛选 


Remove SRRA, RERA, "C45 81k Block 为 单位 的 ， 即 按照 吻 
” “ 除 标准 将 同一 个 Block 内 的 变量 一 次 全 部 剔除 
Backward ”一 后 退 法 ， 筛 选 步 骤 和 逐步 法 类 似 ， 不 同 之 处 是 只 出 不 进 ， 直 到 方程 
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中 所 有 变量 均 不 符合 剔除 标准 ， 没 有 变量 可 以 被 剔除 为 止 
Forward 一 前 进 法 ， 簿 选 步骤 和 逐步 法 类 似 ， 不 同 之 处 是 只 进 不 出 ， 直 到 方程 
外 变量 均 达 不 到 选 入 标准 ， 没 有 变量 可 以 选 入 为 止 


单 击 图 10-2 下 方 的 Statistics... 按 钮 ， 弹 出 Statistics 子 对 话 框 〈 见 图 10-3)。 


本 M Model fit 
[ R squared change 
| Í Desciptives 
[^ Part and partial correlations Help | 
; Í Cojlinearity diagnostics 





10-3 Statistics 子 对 话 框 


> 操作 选项 说 明 


"BR squared change = E F46704224t42 P R, F áe P Ë 65 kd 

-BPart and partial correlations 9 Ë 38] 60 482. 382-48 X 4640482 £ dc 

"&Collinearity diagnostics E E — 3b Op 3E HOME 65 LT RE , eo AE TR 
(Eigenvalues ), 2 Z IK 8] + ( VIF) 等 


单 击 图 10-2 下 方 的 Options.…. 按 钮 ， 弹 出 Options 子 对 话 框 〈 见 图 10-4). 





图 10-4 Options 子 对话 框 


> 操作 选项 说 明 
Stepping Method Criteria: 设置 选 入 和 噜 除 标准 
Use probability of F =E P Añ k W ANERER, # ERIKA k A AF422) P < 
0.05, HRIH P z0.10 
Use F value 一 按 已 值 设置 选 入 和 剔除 标准 
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10.2.6 ”实例 与 操作 


1 实例 描述 

有 学 者 认为 血清 中 低 密度 脂 蛋 白 增高 和 高 密度 脂 蛋 白 降低 是 引起 动脉 
硬化 的 一 个 重要 原因 。 现 测量 30 名 怀疑 患 有 动脉 硬化 的 就 诊 患者 的 载 脂 蛋白 A REE 
白 B、 载 脂 蛋白 E、 载 脂 蛋 白 C、 低 密度 脂 蛋白 中 的 胆固醇 、 高 密度 脂 蛋 白 中 的 胆固醇 含 
E, 资料 见 表 10-1 ( 见 配 书 光盘 中 的 数据 文件 data10-1.xls 或 data10-1.sav)。 分 别 求 低 、 高 
密度 脂 蛋 白 中 的 胆固醇 含量 对 载 脂 蛋 白 A、 载 脂 蛋 白 B、 载 脂 蛋 白 E、 载 脂 蛋白 C 的 线性 
回归 方程 。 


表 10-1 30 名 就 诊 患者 低 、 高 密度 脂 蛋白 中 的 胆固醇 含量 及 载 脂 蛋白 的 测量 
载 脂 蛋白 A ” 载 脂 蛋白 B 载 脂 蛋白 EE 载 脂 蛋白 C 低 密 度 脂 蛋白 高 密度 脂 蛋 白 





序号 (mg/dl) (mg/dl) (mg/dl) (mg/dl) (mg/dl) (mg/dl) 

xi X2 X3 Xa b y? 

1 173 106 70 143 137 62 
2 139 132 64 17.8 162 43 
3 198 112 6.9 16.7 134 81 
4 118 138 71 15.7 188 39 
5 139 94 8.6 13.6 138 51 
6 175 160 12.1 20.3 215 65 
7 131 154 11.2 21.5 171 40 
8 158 141 9.7 29.6 148 42 
9 158 137 74 18.2 197 56 
10 132 151 7.5 172 113 3 
11 162 110 6.0 15.9 145 70 
12 144 113 10.1 42.8 81 4l 
13 162 137 72 20.7 185 56 
14 169 129 8.5 16.7 157 58 
15 129 138 6.3 10.1 197 47 
16 166 148 11.5 33.4 156 49 
17 185 118 6.0 17.5 156 69 
18 155 121 61 204 154 57 
19 175 111 4.1 27.2 144 74 
20 136 110 9.4 26.0 90 39 
21 153 133 8.5 169 ^" 215 65 
2 110 149 9.5 24.7 184 40 
23 160 86 53 10.8 118 57 
24 112 123 8.0 16.6 127 34 
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LE 
REETA A 载 脂 和 蛋白 B 载 脂 蛋 白 EE BERAC 低 密 度 脂 蛋 白 高 密度 脂 蛋 白 
序号 (mg/dl) (mg/dl) (mg/dl) (mg/dl) (mg/dl) (mg/dl) 

xu x2 x X4 yi yz 
24 112 123 8.0 16.6 127 34 
25 147 110 8.5 18.4 137 54 
26 204 122 6.1 21.0 126 72 
27 131 102 6.6 13.4 130 51 
28 170 127 8.4 24.7 135 62 
29 173 123 8.7 19.0 188 85 
30 132 131 13.8 29.2 122 38 
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解 : 拟 合 低 密 度 脂 蛋 白 中 的 胆固醇 含量 对 载 脂 蛋白 A、 载 脂 蛋白 B、 载 脂 蛋 白 E、 载 
脂 和 蛋白 C 的 线性 回归 方程 。 

我 们 不 知道 这 4 个 自 变量 对 低 侯 度 脂 蛋 白 中 的 胆固醇 含量 有 无 影响 ， 那 就 使 用 
Stepwise 法 由 软件 来 选择 判断 。 

2. 操作 步骤 

单 击 Analyze 一 Regression 一 Linear， 在 Linear Regression 主 对 话 框 中 选择 “ 低 密 
度 脂 和 蛋白 ”作为 Dependent,“ 载 脂 蛋 白 A”、“ 载 脂 和 蛋白 B”、“ 载 脂 蛋 白 E”、“ 载 脂 蛋 白 C” 
作为 Independent(s), Method 选取 “Stepwise”; 单 击 Statistics 按钮 , 选取 “Estimates” “Model 
fit”. “R square change”“Durbin-Watson”， 单 击 Continue 按钮 ， 再 单 击 Plots 按钮 ， 选 择 
“*SRESID” 作 为 y 轴 ,“DEPENDNT” 作 为 x fi, 并 选取 “Histogram”、“Normal probability 
plot”， 单 击 Continue 按钮 ， 再 单 击 Options 按钮 ， 选 取 “Use probability of F”， 在 Entry 中 
输入 “0.05”， Æ Removal 中 输入 “0.10”， 单 击 Continue 按钮 ， 最 后 单 击 OK 按钮 。 


Dependent Variable: 低 密 度 脂 蛋白 (mg/dD) 
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低 密 度 脂 蛋白 (mg/dD) 
图 10-5 ” 低 密度 脂 蛋 和 白 中 的 胆固醇 含量 对 学 生化 残 差 的 散 点 图 


| 249 


与 统计 分 


由 图 10-5 可 见 ， 有 一 观察 点 学 生化 残 差 的 绝对 值 大 于 2， 怀 疑 其 为 异常 点 。 不 考虑 该 
异常 点 (序号 为 10 的 记录 ) 重新 拟 合 回归 模型 。 
3， 结 果 解 释 
结果 10-1 列 出 了 模型 的 筛选 过 程 ， 模 型 1 用 逐步 法 选 入 了 载 脂 蛋白 B， 然 后 模型 2 
用 逐步 法 选 入 了 载 脂 蛋白 C， 载 脂 蛋 白 B 仍然 保留 在 模型 2 中 。 另 两 个 变量 没有 达到 选 入 
标准 ， 最 终 没有 进入 。 结 果 的 右 侧 注 明 相应 的 筛选 方法 和 选 入 及 剔除 标准 。 
Voratles | Yarobles | Jimo 
1 Stepwise 


(Criteria: 
Probabilit 


F-to-enter 
. | «2.050, 
Probabilit 





Probabilit 
y-of- 
F-to-enter 


<= .| 


` | Probabilit 








a. Dependent Vari able: [EL EE REB A (moidb 


结果 10-1 模型 的 筛选 过 程 


结果 10-2 是 拟 合 的 两 个 模型 决定 系数 的 改变 情况 ， 从 调整 的 尺 * 来 看 ， 随 着 变量 载 脂 
蛋白 C 的 选 入 ， 模 型 2 可 解释 的 变异 占 总 变异 比例 比 模型 1 大 了 很 多 。 


Model Summary- 


Change Statistics 
Adjusted Std. Errorof | R Square Durbin- 
Model R Square R Square the Estimate Change F Change EE |a F change | ang g I ul 








6583 433 412 25.631 433 20.646 
LE SD S| sal s| sl dl xb ST Saj 
a. Predictors: (Constant), S BE ÆA Bmg) 
b. Predictors: (Constant), &RS3E ÉË8B(mg/d), IEE ES C (mura 


t. Dependent variable: KERM EA madh 


结果 10-2 ” 拟 合 的 两 个 模型 决定 系数 的 改变 情况 


结果 10-3 是 对 拟 合 的 两 个 模型 的 方差 分 析 检 验 结果 。 由 结果 可 知 ,两 个 模型 均 有 统计 
学 意义 。 模 型 有 统计 学 意义 不 等 于 模型 内 所 有 的 变量 就 有 统计 学 意义 ， 还 需 进 一 步 对 各 自 
变量 进行 检验 。 

结果 10-4 是 对 两 个 模型 中 各 个 系数 检验 的 结果 ， 用 的 是 + 检验 。 从 结果 中 可 以 看 出 ， 
模型 2 中 两 个 自 变 量 的 系数 都 有 统计 学 意义 。 载 脂 和 蛋白 B 的 偏 回归 系数 为 1.525， 标 准 
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化 回归 系数 为 0.811; 载 脂 蛋白 C 偏 回 归 系 数 为 -2.706， 标 准 化 回归 系数 为 -0.572。 通 
过 比较 两 个 变量 的 标准 化 回归 系数 的 绝对 值 ， 可 知 载 脂 蛋白 B 对 低 密 度 脂 蛋 白 中 的 胆 
固 醇 含量 贡献 大 些 。 


ANOVA^ 


ess [mes | a [wasa |: | sa | 

Squares df Mean Square F Ü 

1 Regression |13563.021 1 13563.021 20.646 
Residual 17736.979 27 656.925 B 
Total 31300.000 28 

2 Regression |23058.866 2 11529.433 36.374 .000b 
Total 31300.000 28 


a. Predictors: (Constant, &RÉ ÆA B(mo/di) 
b. Predictors: (Constant), EE Fi Bmg, REE Cimgrdh 
c. Dependent Variable: FERRE A (maid 


结果 10-3 ”对 拟 合 的 两 个 模型 的 方差 分 析 检 验 结果 






Coefficientsa 


| = e T] 
Coeficients - Coefficients 

Model | 日 [sgr | Bea | 

1 (Constant) -1.261 34.282 -.037 .971 
2 (Constant) 18.237 24.078 457 456 
$E BS E C B(mg/dl) 1.525 196 811 7.768 .000 
SERE C (mgrdi) -2.706 484 -572 -5.473 000 


a. Dependent Yariable. 低 密度 脂 蛋 和 白 (mgrdn 















结果 10-4 对 两 个 模型 中 各 个 系数 检验 的 结果 


结果 10-5 反映 的 是 多 重 线性 回归 拟 合 模型 过 程 中 没有 进入 模型 的 变量 的 检验 情况 。 由 
结果 可 见 ， 在 模型 1 中 ,未 进入 模型 的 候选 变量 载 脂 和 蛋白 C 还 符合 选 入 标准 ， 可 能 需要 选 
A; 而 在 模型 2 中 ， 未 进入 的 两 个 变量 均 大 于 选 入 标准 ， 无 须 再 进行 分 析 了 。 


















Excluded Variables 
Partial Statistics 
Model Beta in g Correlation 
1 Ex perd D A(gidi .556 .583 .108 .975 
载 脂 重 白 Emgidn -2.855 .008 -.489 .729 
















-.732 .928 
DAmgidD 1.137 . .222 .972 


载 脂 蛋 自 C(mgidb) -5.473 
REZA 
载 脂 蛋白 E(mgidD -1.245 . -.242 .568 








a. Predictors in the Model: (Constant), S&BÉZE IQ B(mo/dh 
b. Predictors in the Model: (Constant), &&BSE E3B(mo/do), SEERA C (modo 
c. Dependent Variable: fFCEZ f£ B7 A (mg/dl) 


结果 10-5. 多重 线性 回归 拟 合 模型 过 程 中 没有 进入 模型 的 变量 的 检验 情况 


最 终 的 “最 优 ” 方 程 为 : 
和 =18.237+1.525x2 — 2.706x4 
结果 10-6 给 出 了 残 差 、 预 测 值 等 一 些 指标 。 
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Predicted Value 
Std. Predicted Value 
Standard Error of 


Predicted Value 

Adjusted Predicted Value 
Residual 

Std. Residual 

Stud. Residual 

Deleted Residual 

Stud. Deleted Residual 
Mahal. Distance 

Cook's Distance 
Centered Leverage Value 


a. Dependent Variable: EEEE A (mg/dl) 


结果 10-6” 残 差 、 预 测 值 等 一 些 指标 





如 结果 10-7 所 示 为 残 差 的 直方 图 。 可 见 ， 残 差分 布 比较 均匀 ， 近 似 正 态 分 布 ， 反 映 了 
应 变量 服从 正 态 分 布 。 


Dependent Variable: 49 REMIK j| (mg/dl) 


Frequency 


Mean = 1.3E-15 
Std. Dev. = 0.964 
N-29 





1 2 3 
Regression Standardized Residual 


结果 10-7. 52515 BL EI 


如 结果 10-8 所 示 为 残 差 的 正 态 P-P 图 。 可 观察 残 差分 布 是 否 正 态 ,可 见 散 点 基本 呈 直 
线 趋势 ， 可 以 认为 应 变量 服从 正 态 分 布 。 


Dependent Variable: AEW HE JIR 30 (1 (mg/dl) 


Expected Cum Prob 





00 02 04 0.6 08 10 
Observed Cum Prob 


结果 10-8 #R2ERJIFE2S P-P 图 
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如 结果 10-9 所 示 为 低 密度 脂 蛋 白 的 胆固醇 含量 对 学 生化 残 差 的 散 点 图 。 可 见 , 学 生化 
残 差 围绕 均线 均匀 分 布 ， 大 部 分 残 差 绝 对 值 在 2 以 内 ， 提 示 方 差 齐 。 


Dependent Variable: 低 密度 脂 蛋 白 (mg/dl) 





4 
ud ° 
x | ° 
i 
$a o 
E "| o o 
d o o 
B ^ o9 B 96 
[72] o ° 
只 o o 
$ id So o 
2 ° 
b a- o 
eb o 
Ë — ° ° 
2-4 o 
T T 1 T T T T T 
B0 100 120 140 160 180 200 220 
低 密度 脂 蛋 白 (mg/dl) 


结果 10-9 低 密 度 脂 蛋白 胆固醇 食量 对 学 生化 残 差 的 散 点 图 


建立 高 密度 脂 蛋 白 中 的 胆固醇 含量 对 载 脂 蛋白 A、 载 脂 蛋 白 B、 载 脂 蛋 白 E、 载 脂 蛋 
A C 的 线性 回归 方程 同上 。 


10.33 ” 共 线 性 解决 方案 与 校正 


多 重 共 线 性 (Multi-Colinearity) 是 多 重 回归 分 析 时 存在 的 一 个 普遍 问题 。 多 重 共 线 性 
是 指 自 变 量 之 问 存在 近似 的 线性 关系 ， 即 某 个 自 变量 能 近似 地 用 其 他 自 变 量 的 线性 函数 来 
表示 。 在 实际 回归 分 析 应 用 中 ， 自 变量 间 完 全 独立 很 难 ， 所 以 共 线性 的 问题 并 不 少见 。 自 
变量 一 般 程度 上 的 相关 不 会 对 回归 结果 造成 严重 的 影响 , 然而 , 当 共 线性 趋势 非常 明显 时 ， 
它 就 会 对 模型 的 拟 合 带 来 严重 影响 。 

(1) 偏 回 归 系数 的 估计 值 大 小 甚至 是 方向 明显 与 常识 不 相符 。 

(2) 从 专业 角度 看 对 应 变量 有 影响 的 因素 ， 却 不 能 选 入 方程 中 。 

(3) 去 掉 一 两 个 记录 或 变量 ， 方 程 的 回归 系数 值 发生 剧 烈 的 变化 ， 非 常 不 稳定 。 

(4) 整个 模型 的 检验 有 统计 学 意义 ， 而 模型 包含 的 所 有 自 变 量 均 无 统计 学 意义 。 

当 出 现 以 上 情况 时 ， 就 需要 考虑 是 不 是 变量 之 间 存 在 多 重 共 线性 。 


10.3.1 多 重 共 线性 的 诊断 


SPSS 中 可 以 通过 以 下 指标 来 辅助 判断 有 无 多 重 共 线 性 存在 。 

O) 通过 做 自 变量 间 的 散 点 图 观察 或 者 计算 相关 系数 判断 ， 看 是 否 有 一 些 自 变量 间 的 
相关 系数 很 高 。 一 般 来 说 ， 两 个 自 变 量 的 相关 系数 超过 0.9， 对 模型 的 影响 很 大 ， 将 会 出 
现 共 线性 引起 的 问题 。 这 只 能 做 初步 的 判断 ， 并 不 全 面 。 

(2) JE CTolerance): 即 以 每 个 自 变量 作为 应 变量 对 其 他 自 变量 进行 回归 分 析 时 
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得 到 的 残 差 比例 ， 大 小 用 1 减 去 决定 系数 来 表示 。 该 指标 值 越 小 ， 则 说 明 被 其 他 自 变 量 预 
测 的 精度 越 高 ， 共 线性 可 能 越 严 重 。 

(3) 方差 膨胀 因子 (Variance Inflation Factor, VIE): 容忍 度 的 倒数 ，VIF 越 大 ， 显 示 
共 线 性 越 严 重 。VIF>10 时 ， 提 示 有 严重 的 多 重 共 线性 存在 。 

(4) 特征 根 (Eigenvalue): 实际 上 是 对 自 变 量 进行 主 成 分 分 析 ， 如 果 特 征 根 为 0， 则 
提示 有 严重 的 共 线性 。 

(5) 条 件 指数 (Condition Index): 当 某 些 维度 的 该 指标 大 于 30 时 ， 则 提示 存在 共 线 性 。 

在 做 多 重 回归 分 析 的 共 线 性 诊断 时 ， 首 先 要 对 所 有 变量 进行 标准 化 处 理 。 在 Statistics 
子 对 话 框 中 ， 选 中 “Collinearity diagnostics” 项 ， 并 在 Options 子 对 话 框 中 选择 不 包括 截 距 
项 ， 就 可 进行 共 线 性 诊断 。 以 例 10-1 为 例 ， 则 相应 输出 结果 如 结果 10-10 所 示 。 


Collinearity Diagnosticsab 


Condition Em EF RUM 
model LEE SEE EIE Index 


| 1.000 | 
` | P SE 
732 1. 316 63 .63 
3. Dependent Variable: B1 
b. Linear Regression through the Origin 


结果 10-10 ” 共 线 性 诊断 结果 


结果 10-10 给 出 的 是 进行 主 成 分 分 析 后 的 特征 根 和 条 件 指数 ， 这 两 个 指标 的 值 在 正常 
范围 内 ， 结 合 上 面 的 分 析 ， 可 以 认为 两 个 自 变 量 间 不 存在 共 线 性 。 


10.8. ” 共 线 性 解决 方案 


自 变量 间 确 实 存在 多 重 共 线 性 ， 直 接 采用 多 重 回 归 得 到 的 模型 肯定 是 不 可 信和 的 ， 此 时 
可 以 用 下 面 的 办 法 解决 。 

(1) 增 大 样本 含量 ， 能 部 分 解决 多 重 共 线性 问题 。 

(20 把 多 种 自 变量 筛选 的 方法 结合 起 来 拟 合 模型 。 建 立 一 个 “最 优 ” 的 逐步 回归 方程 ， 
但 同时 丢失 一 部 分 可 利用 的 信息 。 

(3) 从 专业 知识 出 发 进行 判断 ， 去 除 专业 上 认为 次 要 的 ， 或 者 是 缺失 值 比较 多 、 测 量 
误差 较 大 的 共 线 性 因子 。 

(4) 进行 主 成 分 分 析 ， 提 取 公 因子 代替 原 变 量 进行 回归 分 析 。 

(S) 进行 岭 回归 分 析 ， 可 以 有 效 解决 多 重 共 线性 问题 。 

(6) 进行 通 径 分 析 (Path Analysis)， 可 以 对 应 / 自 变量 间 的 复杂 关系 精细 刻画 。 


10.4 “” 残 差分 析 与 回归 诊断 


多 重 线性 回归 模型 的 基本 假设 除了 线性 、 独 立 、 正 态 及 等 方差 (BD LINE 条 件 ) 外 ， 
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还 要 求 多 个 自 变量 之 间 相 关 性 不 要 过 强 。LINE 条 件 的 核查 一 般 采 用 残 差 分 析 (Analysis of 
Residuals) 来 进行 。 

残 差 分 析 ， 正 如 第 8 章 所 讲 的 ， 主 要 包括 以 下 两 个 方面 。 

(1) 残 差 是 否 独立 : 实际 上 就 是 考察 应 变量 y 取 值 是 否 相互 独立 。 

(2) 残 差分 布 是 否 为 正 态 : 实际 上 就 是 考察 应 变量 y 取 值 是 否 服从 正 态 分 布 。 

残 差 图 (Residual Plot)， 一 般 是 将 现 有 模型 求 出 的 各 点 残 差 ea = yi -和 作为 纵 坐 标 ， 
相应 的 预测 值 乡 或 者 自 变量 取 值 x 作 为 横 坐 标 来 绘制 的 。 如 果 数 据 符 合 模型 的 基本 假定 ， 
则 残 差 与 回归 预测 值 的 散 点 图 不 应 有 任何 特殊 的 结构 。 如 图 10-6 Ca) 所 示 为 较为 理想 的 
残 差 图 ， 说 明 此 数据 用 于 拟 合 直线 回归 方程 是 恰当 的 。 图 10-6 (b) 中 可 以 明显 地 看 到 一 
个 点 的 残 差 相 对 其 他 点 来 说 大 很 多 ， 可 判定 是 异常 点 ， 可 以 考虑 删除 或 改 用 其 他 可 减 小 异 
常 点 影响 的 回归 分 析 方 法 。 图 10-6 (c) 中 的 残 差 与 回归 预测 值 呈 曲线 关系 ， 提 示 在 目前 
的 直线 回归 模型 中 加 入 自 变量 的 二 次 项 将 改善 拟 合 效果 。 图 10-6 (d) 中 的 残 差 呈 喇 叭 口 
形状 , 虽然 围绕 二 线 均 匀 分 布 , 但 是 波动 随 着 拟 合 值 的 增 大 而 增 大 , 提示 误差 的 方差 不 齐 ， 
模型 假设 不 成 立 。 应 考虑 某 种 对 方差 进行 稳定 化 的 处 理 ， 如 进行 变量 变换 ， 或 采用 加 权 最 
小 二 乘法 估计 。 图 10-6 (eo 表示 残 差 之 间 不 独立 的 情况 ， 可 以 看 到 残 差 与 各 个 观测 的 测 
量 时 间 存 在 较 强 的 相关 性 。 


e e e e e 
. 


. s tc ... 





9 0 - : . - — 0 . E —0 ` 一 0 . Le 





5 $ r: ó 时 间 
(a) (b) (c) (d) (e) 


图 10-6“” 残 差 示 意图 


回归 前 提 条 件 和 数据 可 靠 性 从 统计 方法 上 进行 检查 , 就 是 所 谓 的 回归 诊断 (Regression 
Diagnosis) 的 内 容 , 需要 指出 的 是 , 对 这 些 检查 的 解释 及 进一步 处 理应 充分 结合 专业 知识 ， 
不 仅仅 依赖 于 统计 学 上 的 方法 。 


10.5 ”交互 作用 与 哑 变 量 问题 


10.5.1 交互 作用 


多 重 回归 模型 中 有 多 于 2 个 自 变量 时 ， 可 能 就 存在 自 变量 间 的 交互 作用 。 如 果 一 个 模 
HIH 29,25, xp 的 一 次 项 加 起 来 仍 不 足以 “解释 ”y ， 有 了 时 还 需要 考虑 两 个 自 变 量 联 合 的 
额外 效应 或 交互 效应 (交互 作用 )。 

例如 ， 在 生物 化 学 过 程 中 ， 常 有 两 个 因素 联合 效应 不 同 于 单独 效应 之 和 的 情形 。 如 众 
化 剂 的 单独 效应 为 零 ， 与 其 他 因素 配合 却 能 较 大 地 增强 效应 。 
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在 回归 分 析 中 , 车 xi, x, 存在 交互 效应 , 最 常用 的 方法 是 在 回归 模型 中 增加 x,x, BOR 
积 项 ， 如 


$ = bo t boa + box? + bxxix2 (10-1) 
在 参数 估计 时 ， 可 令 x = xz ， 按 模型 
$ = bo + ba + box; + bsxs (10-12) 


估计 参数 。 
事先 判断 是 否 存在 交互 效应 主要 靠 专 业 知识 。 无 专业 知识 可 以 依据 时 ， 应 首先 按 无 交 
互 效应 拟 合 模型 ， 然 后 通过 残 差 分 析 判 断 是 否 需 要 考虑 交互 作用 。 


10.5.2 ”了 吓 变 量 的 设置 


在 多 重 线 性 回归 模型 中 ， 回 归 系 数 bj 表 示 在 其 他 自 变 量 固定 的 情况 下 ，xj 每 改变 一 个 
单位 时 ， 应 变量 y 的 平均 变化 量 。 当 自 变 量 为 连续 性 或 二 分 类 的 变量 时 ,解释 上 是 没有 问题 
fü, 但 是 当 x 为 多 分 类 (无 序 或 等 级 ) 变量 时 就 不 能 这 样 简单 地 直接 分 析 ， 因 为 各 个 变量 值 
只 是 以 代码 的 形式 选 入 方程 ， 不 代表 它们 之 间 的 差距 。 比 如 血型 ，A 型 、B 型 、AB 型 、O 
型 之 间 是 平等 的 ， 不 存在 大 小 问题 。 这 时 ， 需 要 把 原来 的 多 分 类 变量 转化 为 《水平 数 -1) 
MEFE (Dummy Variable )， 每 个 哑 变 量 只 代表 两 个 级 别 或 若干 个 级 别 间 的 差异 。 

哑 变 量 适 用 于 任何 回归 模型 中 自 变量 为 多 分 类 的 情况 ,但 是 在 logistic 回归 模型 和 Cox 
比例 风险 模型 中 应 用 较 多 。SPSS 软件 的 Linear 过 程 对 话 框 里 没有 提供 对 哑 变 量 的 支持 ， 
需要 用 户 使 用 Compute 过 程 自行 建立 ， 这 里 只 做 简要 介绍 。 

1. 多 分 类 无 序 自 变量 

各 类 别 是 相互 独立 的 ， 只 是 在 代码 上 有 大 小 关系 ， 而 本 身 无 大 小 之 分 ， 因 此 在 拟 合 时 
需要 采用 全 哑 变 量 选 入 模型 。 如 前 面 所 举 的 血型 例子 ，4 种 血型 ， 设 置 3 个 哑 变 量 ， 有 具体 
如 表 10-2 所 示 。 


表 10-2 4 种 血型 ， 设 置 3 个 哑 变 量 
O 型 A 型 B 型 AB 型 


X3 0 0 0 1 


从 哑 变 量 的 取 值 特征 可 以 看 出 ，3 个 哑 变 量 为 0 时 ， 代 表 O 型 水 平 ， 说 明 它 是 基础 水 
`F; xi 为 1， 其余 三 变 量 为 0 时， 代表 A 型 水 平 ; xz 为 1， 其 余 哑 变量 为 0 时 ， 代 表 B 型 
水 平 ，xs 为 1， 其 余 哑 变量 为 0 时 ， 代 表 AB 型 水 平 。 这 些 哑 变量 由 于 是 代表 同一 个 变量 的 
不 同 取 值 水 平 ， 因 此 在 分 析 时 应 同时 选 入 或 剔除 模型 ， 即 使 有 部 分 哑 变 量具 有 统计 学 意义 。 

2. 多 分 类 有 序 自 变量 

有 序 变量 提供 的 信息 比 多 分 类 无 序 变量 多 ， 为 了 能 够 充分 利用 信息 ， 采 取 的 多 分 类 无 
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序 哑 变量 设置 方法 要 麻烦 点 。 
(OD 全 哑 变 量 模型 
将 有 序 自 变量 当成 无 序 自 变量 来 处 理 , 一 般 以 最 低 水 平 为 对 比 水 平 。 如 文化 程度 因素 ， 
文言、 小学、 中 学 、 高 中 、 大 学 及 以 上 。 
可 以 以 文盲 为 参照 水 平 ， 采 用 4 个 哑 变 量 拟 合 如 下 模型 : 
$ = bo + bx + bxx2 + byxs + b4x4 (10-13) 
(2) 剂量 一 反应 分 组 线性 模型 
当 等 级 之 间 存 在 近似 线性 关系 时 ， 如 每 天 饮酒 量 与 肝癌 发 生 的 研究 : 
用 “0” 代 表 0 克 ~/ 天 ;“1” 代 表 和 0 克 ~/ 天 ;“2” 代 表 80 克 ~/ 天 ;“3” 代 表 >120 克 / 天 
可 以 拟 合剂 量 一 反应 分 组 模型 : 
$=b +bx (10-14) 
(D 暴露 水 平分 组 线性 模型 
影响 因素 存在 一 个 最 低 有 效 剂量 ， 只 有 在 该 剂量 之 上 才 对 应 变量 有 影响 ， 这 在 危险 因 
素 和 疾病 研究 中 常见 。 
1， 饮 酒 (240 E/R) 


0， 不 饮酒 OAR) 
0, 0 — /天 
1, 40 3Xà— /天 
2, 80 ~ /天 
3, 2120 X/X 


则 拟 合 如 下 模型 : 
$= bo t bi + bix; (10-15) 
1 为 二 分 类 ,代表 暴露 与 否 的 效应 ; 而 xo 代表 达到 最 低 暴露 剂量 后 ， 暴 露水 平 上 升 的 
效应 。 该 模型 可 用 于 剂量 一 反应 关系 呈 折 线 趋势 的 情况 。 


10.6 复 相 关系 数 与 偏 相关 系数 


多 重 线性 相关 与 简单 直线 相关 一 样 ， 要 求 osos xp,y 为 多 元 正 态 分 布 (Mutlivariate 
Normal Distribution) 的 随机 变量 。 


10.6.1 复 相关 系数 、 决 定 系数 与 调整 决定 系数 
一 般 来 说 ， 当 方程 中 自 变量 的 个 数 增加 时 ， 或 多 或 少 总 能 减少 残 差 ， 提 高 模型 的 拟 合 
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精度 ， 但 会 使 模型 复杂 化 。 要 保证 模型 内 自 变 量 “ 少 而 精 ”， 就 需要 一 些 量化 的 指标 来 衡 
量 所 得 模型 的 “ 优 劣 ”。 复 相关 系数 、 决 定 系 数 和 调整 决定 系数 常用 于 衡量 方程 的 “ 优 劣 ” 

决定 系数 (Coefficient of Determination) R2 ， 是 回 妇 平方 和 占 总 离 均 差 平 方 和 的 比例 ， 
即 

R° = S3 回 /35 总 (10-16) 

用 以 反映 线性 回归 模型 能 在 多 大 程度 上 解释 应 变量 y 的 变异 。 其 取 值 范围 为 0< R? <1, 
决定 系数 R2 的 值 越 接近 1， 表 示 样 本 数据 对 所 选用 的 线性 回归 模型 的 拟 合 很 好 。 R 直接 
反映 回归 方程 中 所 有 自 变量 解释 了 应 变量 y 总 变异 的 百分比 ， 也 可 以 说 ，R? 可 以 解释 为 
回归 方程 使 应 变量 y 总 变异 减 小 的 百分比 。 

对 其 假设 检验 ， 检 验 统 计量 为 屎 ， 计 算 公式 为 : 


poo Rp (10-17) 
(I R2)/(n— p-1) 
复 相 关系 数 (Multiple Correlation Coefficient) R, HERKEN, Er p 个 自 
变量 共同 对 应 变量 线性 相关 的 密切 程度 。 p =l 时 ，R =l, r 为 简单 相关 系数 。 
WRI R? (Adjusted R-square) posts gus. 定义 为 : 
Ri 1 ac Rye E (10-18) 
它 增 加 了 对 方程 中 引入 自 变量 的 “惩罚 ”， 当 有 统计 学 意义 的 变量 进入 方程 时 ， 可 使 
调整 的 R? 增 大 ， 而 当 无 统计 学 意义 的 变量 进入 方程 时 ， 调 整 的 R? 反而 减 小 。 因 此 ， 调 整 
的 R 是 衡量 方程 优 劣 的 重要 指标 。 


10.6.2 偏 相关 系数 


当 分 析 两 个 变量 相关 关系 时 ， 通 常会 有 其 他 变量 的 影响 在 里 面 ， 使 得 计算 的 相关 系数 
难以 体现 所 分 析 的 两 个 变量 间 的 真实 相关 关系 。 我 们 可 以 通过 控制 其 他 变量 的 影响 ， 在 其 
他 变量 固定 不 变 的 情况 下 分 析 这 两 个 变量 的 关系 ， 这 就 是 偏 相关 分 析 。 


1. HUE 


偏 相 关系 数 (Partial Correlation Coefficient) 用 于 反映 其 他 变量 一 定时 ， 任 意 两 个 变量 


间 的 相关 关系 。 
rj. =+ JSS /SSm pp-1) (10-19) 
Ex x, y ROG 其 符号 与 偏 回归 系数 已 的 符号 一 致 。SSa(x)) 为 偏 回归 
平方 和 ; SSn(p- 1) 为 去 掉 x) 后 ，y 对 其 余 p-1 个 自 变 量 做 线性 回归 时 的 残 差 平方 和 。 
m AREL Wx Es y 的 线性 关系 愈 密切 ， 其 检验 假设 为 总 体 偏 相关 系数 pp ANS. 
检验 统计 量 为 : 





r$. /1 


— v =l, v=n-p-l1 (10-20) 
a- rh) n- p-— D) 


Fj- 
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2 
psn =. Dans psl (10-21) 


Ja-r} n-p- 
2. SPSS 操作 提示 


偏 相关 分 析 由 Correlate 菜单 的 Partial 过 程 完 成 。 在 菜单 栏 中 单 击 Analyze 一 Correlate 


— Partial, 3É:H Partial Correlations 主 对 话 框 ( 见 图 10-7). 


命 语 文成 绩 [x] 
DEHA) [J 








图 10-7 Partial Correlations 主 对 话 框 


左 侧 框 内 包含 数据 文件 所 有 的 变量 名 ， 其 他 操作 说 明 如 下 。 


> 操作 选项 说 明 
Variables 一 先入 需要 进行 分 析 的 变量 ， 至 少 需要 选 入 两 个 。 
如 果 选 了 多 个 ， 则 给 出 两 两 偏 相关 分 析 结 果 
Controlling for 一 选择 需 要 在 偏 相 关 分 析 时 进行 控制 的 协 变量 
Test of Significance: REAR 系数 检验 的 单 双 便 
-One-tailed “一 单 侧 检验 
-Two-tailed ESL 


"BDisplay actual significance level 一 选择 在 结果 中 给 出 确切 的 己 什 
单 击 图 10-7 右 下 方 的 Options... 按 钮 ， 弹 出 Options 子 对 话 框 ( 见 图 10-8)， 用 于 设置 


需要 的 描述 统计 量 和 统计 分 析 。 





图 10-8 Options 子 对 话 框 
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> 操作 选项 说 明 





3. 实例 描述 

某 学 校 随机 抽取 18 名 学 生 ， 测 定 其 智力 IQ) 值 ， 连 同 当年 数学 和 语 
文 两 科 总 成 绩 如 表 10-3 所 示 〔〈 见 配 书 光盘 中 的 数据 文件 data10-2.xls 或 datal0-2.sav). iX 
计算 数学 成 绩 与 语文 成 绩 的 相关 系数 。 


表 10-3 18 名 学 生 的 智力 、 数 学 成 绩 和 语文 成 绩 
编 号 1 2 3 4 5 6 7 8 9 


数学 成 绩 (》) — 78 84 61 52 93 89 98 98 65 
语文 成 绩 (x ) — 83 76 70 58 82 78 89 95 61 
智 JGZ) 95 100 100 75 105 97 110 120 76 

m 号 10 11 12 13 14 15 16 17 18 
数学 成 绩 ( 了 》) B 48 45 67 75 95 88 99 81 
语文 成 绩 (x) 75 53 43 70 78 97 92 92 88 
€ Haz) 92 61 60 88 96 125 113 126 102 


ik: 资料 来 自 方 积 乾 , 《医学 统计 学 与 电脑 实验 》 第 二 版 ，160 页 


解 : 一 般 来 说 ， 智 力 高 者 数学 和 语文 都 好 ， 因 此 ， 数 学 成 绩 和 语文 成 绩 的 相关 性 隐 含 
着 智力 的 潜在 影响 。 如 果 忽 略 智力 的 影响 ， 必 然 会 得 出 错误 的 结论 。 此 处 只 能 用 偏 相关 分 
析 ， 剔 除 智力 的 影响 ， 分 析 数 学 成 绩 y 和 语文 成 绩 x 的 相关 关系 。 

操作 步骤 如 下 : 

单 击 Analyze 一 Correlate — Partial, 在 Partial Correlations 主 对 话 框 中 选择 “数学 成 
绩 ”“ 语 文成 绩 ” 到 Variables 框 ， 再 单 击 Options 按钮 ， 选 取 “Zero-order correlations”, 
单 击 Continue 按钮 ;最 后 单 击 OK 按钮 。 


4. 结果 解释 


结果 10-11 的 上 部 分 给 出 的 是 3 个 变量 间 两 两 的 线性 相关 分 析 , 可 见 , 如 果 直 接 分 析 ， 
数学 成 绩 y 和 语文 成 绩 x 的 相关 系数 为 0.932， 具 有 统计 学 意义 。 


260 | 


Control Variables 





重 线性 回归 与 相关 





Correlations 


Correlation 
Significance (2-tailed) 
df 

Correlation 
Significance (2-tailed) 
df 

Carreiation 
Significance (2-tailed) 
df 

Correlation 
Significance (2-tailed) 
df 

Correlation 
Significance (2-tailed) 
df 


a. Cells contain zero-order (Pearson) correlations. 


线性 相关 分 析 和 偏 相关 分 析 结 果 


结果 10-11 的 下 部 分 给 出 的 是 控制 了 智力 的 影响 后 偏 相 关 分 析 的 结果 ， 此 时 可 见 ， 数 
学 成 绩 y 和 语文 成 绩 x 的 相关 系数 为 0.461， 不 具有 统计 学 意义 。 


结果 10-11 


1.000 


932 
p. 


918 
p" 


E 
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x JI 草 ” 统 计 图 的 制作 





统计 图 是 应 用 十 分 广泛 的 统计 描述 方法 ， 通 过 点 的 位 置 、 线 段 的 升降 、 直 条 的 长 短 或 
面积 的 大 小 等 方法 来 表达 数据 与 变量 的 关系 。 统 计 图 辅 以 简洁 的 文字 说 明 ， 就 可 以 直观 地 
反映 统计 数据 所 蕴涵 的 内 在 信息 ， 并 可 大 大 提高 统计 报告 的 可 读 性 。 

SPSS 的 制图 功能 很 强 ， 能 绘制 各 种 统计 图 形 。 这 些 图 形 既 可 以 在 统计 分 析 过 程 中 产 
生 ， 也 可 由 专门 的 图 形制 作 菜单 Graphs 来 完成 。 本 章 主要 介绍 如 何 利用 SPSS 软件 中 的 
Graphs 图 形 菜单 直接 将 统计 资料 绘制 成 各 种 统计 图 形 。 制 作 图 形 的 一 般 过 程 是 : 首先 建立 
数据 文件 , 然后 根据 设计 者 的 要 求 选 用 恰当 模型 生成 图 形 , 经 编辑 、 整 理 制 成 满意 的 图 形 。 

SPSS 有 一 个 介绍 并 帮助 建立 各 种 统计 图 形 的 图 库 (Main Chart Gallery)， 用 户 通过 它 
可 以 详细 了 解 SPSS 中 的 各 种 图 形 。 选 择 Graphs 菜单 ， 单 击 Gallery 按钮 ， 在 左 侧目 录 窗 
口 选择 Help Topics 一 Base System 一 Chart Galleries Main Chart Gallery， 打 开 Main Chart 
Gallery 图 库 ， 如 图 11-1 所 示 。 单 击 某 种 类 型 对 应 的 图 标 ， 即 可 显示 相应 图 形 的 有 关 信息 。 


Ë? Dase System = I x 


x < © [s 


LI 后 退 na 停止 B WR Q) 
— 


š 
| Main Chart Gallery 于 


Chart Gallery: Single ( 

Chart Gallery. Contin i 

Chart gallery: Two or || 
» 








图 11-1 Main Chart Gallery 图 库 
11.4 条 图 


条 图 (Bar Charts) 是 用 等 宽 的 直 条 长 度 表 示 事 物 的 数量 ， 常 用 来 比较 各 个 相互 独立 的 


统计 图 的 制作 ENEM 


统计 指标 。 常 用 的 条 图 有 单 式 条 图 、 复 式 条 图 和 分 段 条 图 。 


e 单 式 条 图 (Simple Bar): 以 若干 平行 且 等 宽 的 条 形 表示 数量 对 比 关 系 的 一 种 图 形 ， 


各 条 形 之 间 有 间隙 。 


e 复式 条 图 (Clustered Bar): 由 两 个 或 两 个 以 上 条 图 组 成 的 条 形 图 ， 组 与 组 之 间 有 间 


隙 ， 每 组 内 各 条 形 之 间 无 间隙 。 


。 分 段 条 图 (Stacked Bar): 又 称 堆 积 式 条 图 ， 以 条 形 的 全 长 代表 某 变量 的 整体 ， 条 


形 内 部 各 段 的 长 短 代 表 组 内 各 组 成 部 分 在 整体 中 所 占 的 比例 ， 各 条 之 间 有 间隙 ， 但 
各 段 之 间 无 闻 阶 且 以 不 同 的 颜色 或 线条 区 别 。 


以 表 11-1 数据 〈 见 配 书 光 盘 中 的 文件 datall-1.xls 或 datall-1.sav) 为 
例 , 介绍 3 种 条 图 的 制作 过 程 。(D 用 单 式 条 图 表示 2000 年 全 国 6 个 地 区 人 口 总 数 ; @ 用 
复式 条 图 表示 6 个 地 区 1990 年 、2000 年 人 口 总 数 对 比 ; © 用 分 段 条 图 绘制 2000 年 各 地 


区 总 人 口 的 年 龄 别 分 布 。 
表 11-1 
序号 省 市 地 区 
1 北 京 华北 
2 天 津 华北 
3 河 北 华北 
4 出 西 华北 
5 内 蒙古 华北 
6 辽 宁 东北 
7 吉 林 东北 
8 黑龙 江 东北 
9 +L 海 华东 
10 江 苏 华东 
11 浙 江 华东 
12 安 k 华东 
13 福 建 华东 
14 江 西 华东 
15 山 东 华东 
16 河 南 中 南 
17 # dt 中 南 
18 湖 W 中 南 
19 广 东 中 南 
20 广西 中 南 
21 海 南 中 南 
22 重 K 西南 


1990 年 、2000 年 中 国 大 陆地 区 年 龄 别人 口 数 〈 万 人 ) 


0 一 14 2 


218 
200 
1774 
810 
610 
916 


937 
243 
1592 
965 
1595 
946 
1199 
2245 
2505 
1536 
1696 
1880 
1410 
217 


1990 年 
15—64 3 


795 

622 
3980 
1911 
1449 
2806 
1709 
2452 

966 
4658 
2896 
3719 
1907 
2380 
5671 
5550 
3565 
4030 
4031 
2586 

403 


65 岁 及 以 上 


69 

57 
356 
155 

86 
224 
111 
133 
125 
455 
283 
304 
152 
192 
523 
499 
297 
340 
373 
229 

35 


0—14 # 


188 
168 
1539 
851 
506 
749 
517 
697 
204 
1462 
845 
1528 
799 
1076 
1893 
2401 
1379 
1428 
2089 
1178 
216 
678 


2000 年 
15—64 岁 


1078 

750 
4742 
2242 
1743 
3157 
2051 
2792 
1277 
5325 
3418 
4012 
2445 
2811 
6457 
6211 
4269 
4543 
6030 
2991 

519 
2168 


65 岁 及 以 上 
116 
83 
463 
204 
127 
332 
160 
200 
193 
651 
414 
446 
227 
253 
729 
644 
380 
469 
523 
320 
52 
244 
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续 表 
1990 年 2000 年 
序号 省 市 地 区 
0 一 14 岁 15—64 岁 65 岁 及 以 上 0—142 15—64 岁 65 岁 及 以 上 
23 四 Ji 西南 2485 7625 612 1887 5822 620 
24 贵 JH 西南 1058 2031 149 1068 2253 204 
25 z B 西南 1170 2346 181 1116 2915 257 
26 pu 藏 西南 78 131 10 82 168 12 
27 陕 西 西北 949 2169 169 902 2490 214 
28 Ho 西北 626 1520 91 692 1742 128 
29 青 海 西北 137 295 14 138 358 22 
30 TX 西北 157 292 16 160 377 25 
31 E oss 西北 501 956 60 526 1312 87 





数据 来 源 : 2004 中 国 卫生 统计 年 鉴 。 


表 11-1 的 SPSS 数据 输入 格式 见 图 11-2。 
在 Graphs 菜单 中 选择 Bar 命令 ， 弹 出 条 图 主 对 话 框 〈 见 图 11-3)。 


File Edit View Data Irensform Analyze Graphs Utilities Window Help 


ga s| lol e| | 的 | FH ERR wil 
1: #3 1 





图 11-2 X 11-1 的 SPSS 数据 输入 格式 图 11-3 条 图 主 对 话 框 


e Simple: 单 式 条 图 ; 

* Clustered: 复式 条 图 ; 

e Stacked: 分 段 条 图 ， 又 称 堆 积 式 条 图 ; 

e Summaries for groups of cases: 以 某 个 分 类 变量 分 组 ， 反映 以 组 为 单位 的 变量 指标 ( 例 
数 、 均 数 、 中 位 数 、 总 和 等 )。 一 个 分 类 变量 可 绘制 单 式 条 图 ， 两 个 分 类 变量 可 绘 


制 复式 条 图 和 分 段 条 图 ; 
e Summaries of separate variables: 反映 统计 资料 中 多 个 变量 ， 多 个 变量 的 计量 单位 应 
一 致 ; 
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* Values of individual cases: 反映 某 个 变量 的 所 有 取 值 情况 。 


1. 单 式 条 图 
在 条 图 主 对 话 框 中 ， 单 击 Simple 图 标 ， 选 中 Summaries for groups of cases 后 ， 单 击 
Define 按钮 ， 弹 出 单 式 条 图 定义 对 话 框 ， 如 图 11-4 所 示 。 

可 以 代表 条 图 中 直 条 的 指标 如 下 。 

e N of cases: 某 一 变量 值 的 频数 ; 

* % of cases: 某 一 变量 类 别 频数 占 总 频数 的 百分数 ; 

° Cum. N: 某 一 变量 值 的 累计 频数 ; 

° Cum. %: 某 一 变量 值 的 累计 百分数 ; 

* Other statistic(e.g., mean): 其 他 统计 量 。 本 例 即 选 择 此 项 ， 选 择 此 项 后 ，Variable 框 
被 激活 , 可 选 入 变量 。 先入“ 人口 数 ”变量 , 单 击 Change Statistic 按钮 , 进入 Statistic 
对 话 框 〈 见 图 11-5)。 





11-4 单 式 条 图 定义 对 话 柜 图 11-5 Statistic 对 话 杠 


可 供 选择 的 统计 量 有 :Mean of values( 均 数 )、Median of values( 中 位 数 )、Mode of values 
( 众 数 )、Number of cases 〈 例 数 )、Sum of values (总 数 )、Standard deviation (标准 差 )、 
Variance (7;2:). Minimum value (最 小 值 )、Maximum value (最 大 值 )、Cumulative sum 
(累积 和 )。 男 外 ,还 可 通过 设 定 特定 的 值 , 求 变量 在 特定 范围 的 例 数 、 百 分 数 或 百 分 位 数 。 
本 例 选择 Sum of values (总 数 )， 单 击 Continue 按钮 ， 返 回 上 级 单 式 条 图 定义 对 话 框 。 
e Category Axis: 选择 分 类 轴 变 量 ， 即 横 轴 所 代表 的 变量 。 本 例 选 入 “地 区 ”变量 。 
° Panel by: 分 层 变 量 选项 ， 有 行 分 层 变量 和 列 分 层 变量 。 本 例 不 做 分 层 处 理 ， 不 选 
择 该 项 。 
* Template: 模板 。 选 中 Use chart specifications from Ji, File 按钮 被 激活 ， 可 选择 套 
用 已 有 的 SPSS 图 形 模板 做 图 。 
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° Titles: 可 给 图 形 添加 标题 、 副 标题 、 脚 注 等 内 容 〈 见 图 11-6)。 
e Options: 单 击 该 按钮 ， 进 入 Options 对 话 框 〈 见 图 11-7) 











11-6 Titles 对 话 框 图 11-7 Options 对 话 框 


Options 对 话 中 各 选项 如 下 。 

° Exclude cases listwise: 含有 任何 缺失 值 的 观察 单位 均 被 排除 。 

* Exclude cases variable by variable: 只 排除 含 本 次 统计 变量 缺失 值 的 观察 单位 。 

* Display groups defined by missing values: 显示 含 缺 失 值 组 。 

* Display chart with case labels: 显示 标识 的 观察 单位 的 图 形 。 

* Display error bars: 显示 误差 条 。 可 选择 可 信 区 间 、 标 准 误 、 标 准 差 。 

由 于 本 例 不 含 缺失 值 ， 且 统计 人 口 总 数 ， 所 以 整个 Options 选项 均 不 需要 选择 。 

单 击 Continue 按钮 ， 返 回 上 级 单 式 条 图 定义 对 话 框 。 单 击 OK 按钮 ， 即 完成 本 例 单 式 
条 图 的 所 有 操作 ， 生 成 如 图 11-8 所 示 的 图 形 。 双 击 图 形 空白 处 ， 可 进入 图 形 编辑 功能 ， 对 
图 形 进 行 编辑 。 

idest -Aidi 


x 


a) BED >R 000 | | ums 





东北 ”华北 EA 西北 ”西南 中 南 
地 区 
图 11-8 ” 2000 年 中 国 大 陆 各 地 区 人 口 总 数 比 较 ( 单 式 条 图 ) 
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2. 复式 条 图 

在 SPSS 数据 窗口 打开 datall-l.sav 或 datal1-1.xls， 然 后 单 击 菜单 Graphs 一 Bar， 进 入 
条 图 主 对 话 框 。 选 中 Clustered 图 标 和 Summaries of separate variables， 单 击 Define 按钮 ， 
进入 复式 条 图 定义 对 话 框 ( 见 图 11-9)。 


ELI 
£ —JVLOS A 188 CE K 
$» — 0008€ AC ( 25 





图 11-9 复式 条 图 定义 对 话 框 


在 Bars Represent 选项 框 分 别 选 入 “1990 年 人 口 数 ”和 “2000 年 人 口 数 ”变量 ， 然 后 
在 Bars Represent 选 项 框 选中 “1990 年 人 口 数 ” 变 量 , 单 击 Change Statistic 按钮 ,进入 Statistic 
对 话 框 ， 选 中 Sum of values， 单 击 Continue 按钮 退出 Statistic 对 话 框 ， 返 回复 式 条 图 定义 
对 话 框 。 再 次 在 Bars Represent 选项 框 中 选中 “2000 年 人 口 数 ”变量 , 单 击 Change Statistic 
按钮 ， 进 入 Statistic 对 话 框 ; 选中 Sum of values， 单 击 Continue 按钮 退出 Statistic 对 话 框 ， 
返回 复式 条 图 定义 对 话 框 。 在 Category Axis 框 选 入 “地 区 ”变量 ， 单 击 OK 按钮 ， 即 完成 
图 形 绘制 ， 结 果 如 图 11-10 所 示 。 

3. 分 段 条 图 

打开 datall-l.sav 或 datall-1.xls 文件 ， 单 击 菜单 Graphs 一 Bar， 进 入 条 图 主 对 话 框 ， 
选中 Stacked 图 标 和 Summaries for groups of cases， 单 击 Define 按钮 ， 进 入 分 段 条 图 定义 
对 话 框 ,在 Bars Represent 选项 组 选中 Other statistics(e.g. mean), 在 Variables 框 内 选 入 “2000 
年 人 口 数 (万 人 )” 变 量 , 单 击 Change Statistic 按钮 ,进入 Statistic 对 话 框 ; 选中 Sum of values, 
单 击 Continue 按钮 退出 Statistic 对 话 框 ， 返 回 分 段 条 图 定义 对 话 框 。 在 Category Axis 框 选 
入 “地 区 ”变量 ， 在 Define Stacks by 框 选 入 “年 龄 段 ” 变 量 。 单 击 Titles 按钮 ， 定 义 绘 制 
图 形 的 名 称 等 内 容 ， 单 击 Continue 按钮 退出 Titles 对 话 框 ， 返 回 分 段 条 图 定义 对 话 框 。 单 
击 OK 按钮 ， 完 成 图 形 绘制 ， 结 果 如 图 11-11 所 示 。 
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2000 年 人 口 总 数 比较 〈 复 式 条 图 ) 


中 国 大 陆地 区 2000 年 年 龄 别人 口 数 比较 


图 11-10 中 国 大 陆地 区 1990 年 、 


分 段 条 图 





Sum <O (R) 


Æ 11-11 2000 年 中 国 大 陆地 区 年 龄 别人 口 数 比较 〈 分 段 条 图 ) 


z7 


3-D 条 图 (3D Bar Charts) 即 


11.2 3-D 条 


三 维 空间 的 表现 形式 。 


维 条 图 ， 是 复式 条 图 在 
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仍 以 datall-1.sav 或 data11-1.xls 数据 资料 为 例 ， 进 行 不 同 地 区 、 不 同 
年 龄 段 的 人 口 数 分 析 比 较 。 

打开 SPSS 文件 data11-1.sav 或 datall-1.xls 一 Graphs 一 3-D Bar 一 进入 3-D 条 图 对 话 框 
( 见 图 11-12)。X 轴 或 Z 轴 的 可 选项 (X-axis represents 和 Z-axis represents ) 有 Groups of cases. 
Separate variables. Individual cases， 分 别 反 映 观 察 单位 各 分 组 的 指标 、 所 有 观察 单位 的 单 
个 变量 或 多 个 变量 的 统计 量 。 某 个 变量 的 取 值 情况 ， 与 普通 条 图 选项 相同 。 





图 11-12 3-D 条 图 对 话 框 


本 例 中 和 轴 和 Z 轴 均 选 择 Groups of cases， 单 击 Define 按钮 ， 进 入 三 维 条 图 定义 对 话 
框 〈 见 图 11-13) 。 在 Bars Represent 框 选择 Sum of values, Variable 选 入 “2000 年 人 口 数 
(万 )” 变 量 ，X Category Axis 选 入“ 地区” 变量，Z Category Axis 选 入 “年 龄 段 ” 变 量 ， 
Y 轴 代表 图 形 要 描述 的 统计 量 ， 即 2000 年 人 口 数 。 最 后 在 Titles 对 话 框 中 输入 题目 内 容 ， 
返回 三 维 条 图 定义 对 话 框 ， 单 击 OK 按钮 ， 即 可 获得 图 形 结果 〈 见 图 11-14， 为 便于 比较 ， 


本 图 利用 图 形 编辑 功能 ， 将 年 龄 段 0 一 14 岁 和 15 一 64 岁 两 个 年 龄 段 在 Z 轴 上 的 位 置 进行 
了 调换 )。 
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图 11-13. 3-D 条 图 定义 对 话 框 
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图 11-14 2000 年 中 国 大 陆 各 地 区 年 龄 别人 口 数 比较 (3-D 条 图 ) 


11.3 “ES 


线 图 (Line Charts) 是 指 在 直角 坐标 系 中 用 线段 的 升降 表达 一 事物 随 另 一 事物 数量 变 
化 的 趋势 ， 相 邻 两 点 以 直线 连接 。 

在 SPSS 数据 编辑 窗口 中 选择 Graphs 菜单 下 的 Line 命令 ， 进 入 线 图 主 对 话 框 ， 如 图 
11-15 所 示 。SPSS 提供 3 种 线 图 类 型 的 绘制 。 

e Simple: 单线 图 ， 用 一 条 折线 表示 某 个 变量 的 变化 趋势 。 

° Multiple: 多 线 图 ， 在 同一 个 直角 坐标 内 用 多 条 折线 同时 表示 多 个 变量 的 变动 趋势 。 

* Drop-line: 垂 线 图 ， 反 映 几 个 变量 在 同一 时 期 内 差距 的 统计 图 。 





K 11-15 线 图 主 对 话 框 


以 1990—2003 年 我 国 普通 高 校 与 普通 医药 高 校 招生 人 数 建立 datal1-2. 
sav 或 datall-2.xls 数据 文件 〈( 见 图 11-160. 220: CO 我 国 普 通 高 校 招生 人 数 随 年 份 变化 
的 单线 图 ，@) 普通 高 校 与 普通 医药 高 校 随 年 份 变化 的 多 线 图 和 垂 线 图 。 
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图 11-16 1990—2003 年 我 国 普通 高 校 与 普通 医药 高 校 招生 人 数 

1. 单线 图 

打开 datal1-2.sav 或 datall-2.xls 数据 文件 ， 选 择 Graphs 菜单 下 的 Line 命令 ， 进 入 线 
图 主 对 话 框 。 选 中 Simple 图 标 和 Summaries for groups of cases， 单 击 Define 按钮 ， 进入 单 
线 图 对 话 框 ， 在 Lines Represent 选项 中 选择 Other statistic[e.g.mean], Variable 选择 框 内 选 
入 “普通 高 校 招 生 人 数 ” 变 量 ， 单 击 Change Statistic 按钮 ， 选 中 Mean of values 后 返回 到 
单线 图 对 话 框 。 在 Category Axis 框 先入“ 年份 ”变量 ， 单 击 OK 按钮 即 可 获得 如 图 11-17 
所 示 的 图 形 。 
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图 11-17. 1990—2003 年 我 国 普通 高 校 招生 人 数 变化 单线 图 
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2. 多 线 图 

打开 datall-2.sav 或 datall-2.xls 数据 文件 ， 选 择 Graphs 菜单 下 的 Line 命令 ， 进 入 线 
图 主 对 话 框 。 选 中 Multiple 图 标 和 Summaries of separate variables, 单 击 Define， 进 入 多 线 
图 对 话 框 ( 见 图 11-18); 在 Lines Represent 框 选 入 “普通 高 校 招 生 人 数 ” 和 “医药 高 校 招 
生 人 数 ” 变量， 在 Category Axis 框 选 入 “年 份 ” 变 量 ， 然 后 单 击 OK 按钮 ， 即 可 获得 如 图 
11-19 所 示 的 图 形 。 








图 11-18 多 线 图 对 话 框 
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图 11-19 1990 一 2003 年 我 国 普通 高 校 与 医药 高 校 招生 人 数 变化 图 〈 多 线 图 ) 
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3， 垂 线 图 

打开 datall-2.sav 或 datall-2.xls 数据 文件 ， 选 择 Graphs 菜单 下 的 Line 命令 ， 进 入 线 
图 主 对 话 框 。 选 中 Drop-line 图 标 和 Summaries of separate variables， 单 击 Define 按钮 ， 进 
入 垂 线 图 对 话 框 ;， 在 Points Represent 框 选 入 “普通 高 校 招生 人 数 ” 和 “医药 高 校 招生 人 
数 ” 变 量 , 在 Category Axis 框 选 入 “年 份 ”变量 , 然后 单 击 OK 按钮 ， 即 可 获得 如 图 11-20 
所 示 的 图 形 。 
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图 11-20 1990— 2003 年 我 国 普 通 高 校 与 医药 高 校 招 生 人 数 变 化 图 (ERR) 





11.4 面积 图 


面积 图 〈Area Charts) 是 用 线段 下 的 阴影 面积 表示 变量 变化 趋势 的 统计 图 。 

在 SPSS 数据 编辑 窗口 中 选择 Graphs 菜单 下 的 Area 命令 , 进入 面积 图 主 对 话 框 ,SPSS 
提供 两 种 面积 图 类 型 的 绘制 。 

° Simple: 单 式 面积 图 ， 表 示 某 一 个 变量 变动 趋势 的 面积 图 。 

e Stacked: 分 段 面积 图 ， 在 同一 个 直角 坐标 内 表示 多 个 变量 变动 趋势 的 面积 图 。 

以 上 节 的 datal1-2.sav 或 datal1-2.xls 数据 文件 为 例 ， 绘 制 单 式 面积 图 
和 分 段 面积 图 。 

1. 单 式 面 积 图 

打开 data11-2.sav 或 datall-2.xls 数据 文件 ， 选 择 Graphs 菜单 下 的 Area 命令 ， 进 入 面 
积 图 主 对 话 框 ， 选 中 Simple 和 Summaries for groups of cases， 单 击 Define 按钮 ， 进 入 单 式 
面积 图 对 话 框 。 在 Areas Represent 选项 中 选择 Other statistic[e.g., mean], Variable 选择 框 内 
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DN iio ” 
选 入 “普通 高 校 招生 人 数 ” 变 量 ， 单 击 Change Statistic 按钮 ， 选 中 Mean of values 后 返回 


到 单 式 面积 图 对 话 框 。 在 Category Axis HEA “FH” ZE, Aih OK 按钮 即 可 获得 如 图 
11-21 所 示 的 结果 。 
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图 11-21 1990 一 2003 年 我 国 普通 高 校 招生 人 数 变化 〈 单 式 面积 图 ) 


2. 分 段 面 积 

打开 datall-2.sav 或 datall-2.xls 数据 文件 ， 选 择 Graphs 菜单 下 的 Area 命令 ， 进 入 面 
积 图 主 对 话 框 ， 选 中 Stacked 和 Summaries of separate variables， 单 击 Define 按钮 ， 进 入 分 
段 面积 图 对 话 框 。 在 Areas Represent 框 选 入 “普通 高 校 招 生 人 数 ” 与 “医药 高 校 招 生 人 数 ” 
变量 (两 个 变量 均 需 单 击 Change Statistic 按钮 ， 选 中 Mean of values)， 在 Category Axis 
框 先入“ 年份 ”变量 单 击 OK 按钮 即 可 获得 如 图 11-22 所 示 的 图 形 。 


11,9 


(Pie Charts). 又 称 饼 图 ， 是 以 整个 圆 的 面积 代表 研究 事物 的 全 体 ， 用 扇形 面积 表 
示 事 物 内 部 各 部 分 的 构成 。 | 

试用 圆 图 表示 data 11- 1.sav BÈ data11-1.xls 数据 中 2000 年 各 地 区 人 口 在 
全 国 总 人 口中 的 构成 。 

实现 步骤 如 下 : 

打开 datal1-1.sav 或 datal1-1.xls 文件 , 单 击 Graphs 一 Pie, 选中 Summaries for groups of 
cases, 单 击 Define 按钮 ,进入 圆 图 主 对 话 框 。 在 Slices Represent 选项 中 选中 Sum of variable, 
在 Variable 框 选 入 “2000 年 人 口 数 〈 万 )” 变 量 ， 在 Define Slices by 框 选 入 “地 区 ”变量 ， 
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终 值 。 它 是 专 为 观察 股票 、 期 货 、 外 汇 等 市 场 变动 趋势 而 设计 的 。 

SPSS 有 5 种 高 低 图 类 型 可 供 选 择 。 
Simple high-low-close: 简单 高 低 收盘 图 ， 表 示 单 位 时 间 内 某 变量 的 最 高 值 、 最 低 值 
和 最 终 值 。 
Simple range bar: 简单 全 距 图 ， 又 称 为 简单 极 差 图 ， 表 示 单 位 时 间 内 某 变量 的 最 高 
值 和 最 低 值 。 简 单 全 距 图 和 简单 高 低 收盘 图 的 区 别 在 于 它 省 略 了 最 终 值 。 
Clustered high-low-close: 复式 高 低 收盘 图 ， 表 示 单 位 时 间 内 两 个 或 两 个 以 上 变量 的 
最 高 值 、 最 低 值 和 最 终 值 。 
Clustered range bar: 复式 全 距 图 ， 又 称 为 分 组 极 差 图 ， 表 示 单 位 时 间 内 两 个 或 两 个 
以 上 变量 的 最 高 值 和 最 低 值 。 
Difference area: 差别 面积 图 ， 表 示 两 个 指标 单位 时 间 内 的 变化 趋势 ， 两 条 曲线 之 间 
的 面积 表示 其 变化 趋势 的 差别 。 

20064£ 2 月份 的 股票 A 行 情 已 存 入 数据 文件 datal1-3.sav 或 datal1-3.xls 
( 见 图 11-24)， 按 日 期 绘制 该 股票 2 月 份 的 简单 高 低 收盘 图 。 
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11-224 ”股票 某 月 行情 的 SPSS 数据 库 


实现 步骤 如 下 。 

打开 datal1-3.sav 或 datal1-3.xls 文件 , 单 击 Graphs 一 High-Low, 选中 Simple high-low- 
close 和 Summaries of separate variables 〈 当 最 高 价 、 最 低 价 和 收盘 价 在 文件 中 是 合 在 一 起 
的 一 个 变量 ， 即 这 三 者 在 数据 结构 中 占 同 一 列 时 ， 则 选中 Summaries for groups of cases ) 
单 击 Define 按钮 ， 进 入 高 低 图 对 话 框 。 在 Bars Represent 的 三 个 选项 框 High. Low. Close 
依次 选 入 最 高 价 、 最 低 价 和 收盘 价 三 个 变量 ， 在 Category Axis 框 选 入 “日 期 ”变量 ， 单 击 
OK 按钮 ， 获 得 如 图 11-25 所 示 的 图 形 。 
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Æ 11-25 某 股 票 2006 年 2 月 份 简单 高 低 收盘 图 


A. B 股票 2006 年 2 月 份 每 日 收盘 价 如 表 11-2 所 示 ,， 用 差别 面积 图 表 
达 两 股票 2 月 份 每 日 收盘 价 及 其 差别 的 变动 情况 。 


Æ 11-2 A. B 股票 2006 年 2 月 份 每 日 收盘 价 (元 ) 


H 期 A B 
6 2.52 2.77 
7 2.95 2.82 
8 2.83 2.75 
9 2.78 2.87 
10 2.95 2.93 
13 2.80 2.79 
14 2.85 2.82 
15 2.77 2.76 
16 2.74 2.52 
17 2.77 2.95 
20 2.82 2.83 
21 2.75 2.78 
22 2.87 2.95 
23 2.93 2.80 
24 2.79 2.85 
27 2.82 2.77 
28 2.76 2.74 
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实现 步骤 如 下 。 


首先 ,在 SPSS 的 数据 编辑 窗口 输入 表 11-2 中 的 数据 , 保存 为 datal1-4.sav 或 datal11-4.xls 
(数据 库 结构 如 图 11-26 所 示 ) 。 单 击 Graphs High-Low, 选中 Difference area 和 Summaries 
for groups of cases， 单 击 Define 按钮 ， 进 入 差别 面积 图 对 话 框 。 在 Lines Represent 选项 中 
选中 Other statistic[e.g.mean]， 在 Variable 选项 框 选 入 “收盘 价 ”， 在 Category Axis 选项 框 
选 入 “日 期 ”变量 ， 在 Define 2 groups by 选项 框 选 入 “股票 ”变量 ， 单 击 OK 按钮 ， 获 得 


如 图 11-27 所 示 的 图 形 。 
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图 11-26 SPSS 数据 文件 “datall-4.sav” 的 结构 
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图 11-27 A. B 股票 2006 年 2 月 份 每 日 收盘 价 的 差别 面积 图 


_ 统计 图 的 制作 ENIM 


如 图 11-27 所 示 图 形 显示 A. B 股票 2006 年 2 月 份 的 差价 变动 趋势 ,图 形 的 边线 是 股 
票 的 收盘 价 , 带 横 线 阴影 图 形 表示 A 收盘 价 高 于 B, 网 格 线 阴影 图 形 表示 B 收盘 价 高 于 A. 


11.7 fj dite 


帕 累 托 图 (Pareto Charts). 也 称 排列 图 或 主 次 因素 图 ， 用 条 形 的 长 短 表示 各 组 绝对 数 
的 多 少 ， 用 线段 的 逐渐 上 升 趋势 表现 各 组 构成 接近 100% 的 过 程 。 它 是 直 条 图 和 构成 图 的 
结合 ， 直 条 从 高 到 低 依次 排列 。 

SPSS 提供 2 种 类 型 的 帕 累 托 图 : 简单 帕 累 托 图 (simple) 和 分 段 帕 累 托 图 Cstacked). 

以 data11-1.sav 或 datal1-1.xls 数据 文件 为 例 , 绘制 2000 年 全 国人 口 年 
龄 别 构成 的 简单 帕 累 托 图 。 

实现 步骤 如 下 。 

打开 SPSS 数据 文件 datall-l.sav 或 datal1-1.xls， 单 击 Graphs 一 Pareto， 进 入 帕 累 托 图 
主 对 话 框 。 选 中 Simple 和 Summaries for groups of cases, "it; Define 按钮 ， 进 入 帕 累 托 图 
定义 对 话 框 ,在 Bars Represent 选项 中 选中 Sums of Variable, 并 选 入 “2000 年 人 口 数 (万 )”， 
在 Category Axis 框 选 入“ 年龄 段 ”变量 ， 单 击 OK 按钮 ， 获 得 如 图 11-28 所 示 的 图 形 。 
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图 11-28 2000 年 全 国人 口 年 龄 别 构 成 的 简单 帕 累 托 图 


分 段 由 累 托 图 相对 简单 帕 累 托 图 多 一 个 分 组 变量 ， 上 例 中 若 按 地 区 分 类 制图 ， 直 条 中 
再 显示 年 龄 别 构成 ， 则 构成 分 段 帕 累 托 图 ， 其 结果 如 图 11-29 所 示 。 
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图 11-29 2000 年 全 国 各 地 区 人 口 年 龄 别 构成 的 分 段 帕 累 托 图 
11.8 ”质量 控制 图 


质量 控制 图 (Control Charts) 常用 来 作为 质量 控制 工具 ， 对 个 体 或 均 数 的 变动 情况 进 
行 监测 。 它 是 根据 数理 统计 原理 来 确定 一 个 范围 ， 用 以 界定 观察 值 或 均 数 的 波动 是 正常 的 
或 异常 的 ， 并 以 图 的 形式 表达 。SPSS 质量 控制 图 的 主 对 话 框 ( 见 图 11-30) 给 出 了 4 种 常 
用 的 质量 控制 图 。 





图 11-30 质量 控制 图 主 对 话 框 


e X-Bar, R, s: 均 数 一 极 差 (标准 差 ) 质量 控制 图 包括 两 组 组 合 质 控 图 ， 即 X-Bar, 
R ( 均 数 一 极 差 质 控 图 ) 和 XX-Bar，s〈 均 数 一 标准 差 质 控 图 )。 
* Individuals, Moving Range: 单 值 移动 极 差 控 制图 。 
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° p, np: 发 生 率 (p)、 发 生 数 (np) MER. 

° c, u: 缺陷 数 〈c)、 单 位 缺陷 数 Cu) 质 控 图 。 

Data Organization 〈 数 据 排列 方式 ) 如 下 。 

* Cases are units: 数据 文件 中 一 行 表示 一 个 观察 单位 ， 包 括 一 个 分 组 变量 和 一 个 作为 
监测 指标 的 变量 。 每 一 组 的 观察 单位 数 可 以 不 同 。 

e Cases are subgroups: 每 个 观察 单位 单独 为 一 列 变量 ， 一 行 包括 同一 组 所 有 观察 单位 
的 数据 ， 每 组 的 观察 单位 数 必 须 相 同 。 

表 11-3 是 5 位 评委 对 8 名 选手 的 打分 情况 ， 试 对 评委 给 分 情况 做 出 质 


量 控制 图 。 
表 11-3 5 位 评委 对 8 名 选手 的 打分 情况 
评委 选手 1 选手 2 选手 3 选手 4 选手 5 选手 6 选手 7 选手 8 
1 92 83 76 87 84 82 92 83 
2 82 88 75 80 85 89 82 78 
3 78 82 81 79 81 92 76 82 
4 82 82 89 87 81 82 83 80 
s 88 79 92 92 87 80 92 82 
实现 步骤 如 下 。 


将 表 11-3 中 数据 输入 SPSS 数据 编辑 窗口 (数据 库 结 构 如 图 11-31 所 示 )， 命 名 为 
datall-5.sav 或 datall-5.xls. 
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图 11-31 SPSS 数据 文件 “datall-5.sav” 的 结构 


单 击 Graphs Control, 进入 质 控 图 主 对 话 框 , 选中 X-Bar, R, s 图 标 和 Cases are units 
选项 (如果 数据 库 结构 如 表 11-3 所 示 格 式 ， 此 处 则 选择 Cases are subgroups)， 单 击 Define 
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有 SEN 与 统计 分 析 ` 


按钮 ， 进 入 均 数 一 极 差 〈 标 准 差 ) 质量 控制 图 对 话 框 。 在 Process Measurement 框 选 入 “分 
数 ” 变 量 ， 在 Subgroups defined by 框 选 入 “评委 ”变量 (若是 对 每 位 选手 做 质 探 图， 此 处 
则 选 入 “选手 ”变量 )， 在 Charts 选项 中 选中 X-Bar and range〈 均 数 一 极 差 质 控 图 。 如 果 
做 的 是 均 数 一 标准 差 质 控 图 ， 则 选中 X-Bar and standard deviation? 。 单 击 Options 按钮 ， 
定义 质 控 图 的 上 下 限 (系统 默 认为 均 数 土 3 倍 标准 差 ) 和 每 组 样本 最 少 例 数 〈 系 统 默认 为 
2) 。 返 回 上 级 对 话 框 ， 单 击 OK 按钮 ， 获 得 如 图 11-32 和 图 11-33 所 示 的 图 形 。 

上 面 做 的 是 均 数 一 极 差 质 控 图 ， 如 果 做 的 是 均 数 一 标准 差 质 控 图 ， 将 得 到 如 图 11-32 
和 图 11-34 所 示 的 结果 。 


"T i 一 分数 


J | UCL = 88.74 
_ Average = 83.68 
| LLCL - 78.61 




















Sigma level: 3 


图 11-32 5 位 评委 的 均 数 质 控 图 





一 一 分 数 
J L UCL 225.35 
- Average = 13.60 
[1 LCL = 1.85 





Range 














Sigma level: 3 


11-33. 5 位 评委 的 极 差 质 控 图 


图 11-32 是 均 数 质 控 图 ， 由 3 条 线 组 成 。 中 心 水 平实 线 为 全 部 分 数 的 均 数 ， 上 下 两 条 
虚线 分 别 为 控制 上 限 (UCL) 和 控制 下 限 (LCL)， 由 所 有 观察 值 的 均 数 土 3 倍 标准 差 求 得 。 
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”统计 图 的 制作 EA 


图 中 散 点 为 每 位 评委 为 8 位 选手 给 分 的 均 数 。 本 例 无 散 点 落 在 控制 线 外 ， 说 明 评委 给 分 较 
稳定 。 





— 分 数 

L UCL = 8.55 
_ Average = 4. 
LCL =.87 





6 JL 











Standard Deviation 
4A 





1 2 3 4 5 
Sigma level: 3 


E 11-34 5 位 评委 的 标准 差 质 控 图 


11-33 是 极 差 质 控 图 ， 中 心 线 为 每 位 评委 给 分 的 极 差 的 均 数 ， 控 制 上 限 和 控制 下 限 
由 极 差 的 均 数 土 3 倍 极 差 的 标准 差 求 得 ， 散 点 为 每 位 评委 给 分 的 极 差 。 

图 11-34 是 标准 差 质 控 图 ， 中 心 线 为 每 位 评委 给 分 的 标准 差 的 均 数 ， 控 制 上 限 和 控制 
下 限 由 标准 差 的 均 数 土 3 倍 标准 差 的 标准 差 求 得 ， 散 点 为 每 位 评委 给 分 的 标准 差 。 


11.9 BB 


箱 图 (Box Plots) 又 称 箱 丝 图 (Box-and-Whisker Diagram) ， 是 一 种 描述 数据 分 布 的 
统计 图 ， 可 用 于 表现 定量 变量 的 5 个 百 分 位 点 ， 即 P25，P2s，P5o0，P75， 了 P%s5。 由 P25 一 P75 
构成 图 形 的 “ 箱 ”， 由 Ps 一 Pzx5，P75 一 Po7s 构成 图 形 的 两 条 “ 丝 ”。 

根据 所 研究 的 实际 问题 ，SPSS 软件 提供 了 两 种 类 型 的 箱 图 。 单 式 箱 图 用 于 分 析 只 有 
一 个 分 类 变量 的 资料 ， 复 式 箱 图 用 以 分 析 具 有 两 个 分 类 变量 的 资料 。 

如 图 11-35 所 示 是 抽样 调查 324 名 某 地 建筑 行业 农民 工 的 体检 资料 的 
SPSS 文件 结构 Cdatall-6.sav 或 datall-6.xls). (D 试用 单 式 箱 图 描述 不 同年 龄 段 (分 <35 
岁 和 >35 岁 组 两 组 ) 农民 工 的 身高 分 布 情况 ; @ 试用 复式 箱 图 分 析 不 同 婚姻 状况 和 不 同年 
龄 段 农 民工 的 体重 分 布 情况 。 

实现 步骤 如 下 。 

(Ü) 打开 文件 datall-6.sav， 单 击 Graphs 一 Boxplot， 进 入 箱 图 主 对 话 框 ， 选 中 Simple 
和 Summaries for groups of cases, "iti Define 按钮 , 进入 单 式 箱 图 定义 对 话 框 。 在 Variable 
框 选 入 “身高 ” 变量 ， 在 Category Axis 框 选 入 “年 龄 段 ” 变 量 ， 单 击 OK 按钮 ， 获 得 如 图 
11-36 所 示 的 图 形 。 图 中 带 数字 的 散 点 是 超出 箱 图 标示 范围 〈 小 于 Pas RAF Pors) 的 观察 
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datall-6. sav SPSS Data Editor 
File Edit View Data Transform Analyze Graphs Vtilities Window Help 
age | -lol =| | ETE] ERR i 
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SPSS Processor is ready 


;图 11-35” 某 地 324 名 建筑 行业 农民 工 的 体检 资料 SPSS 数据 库 





(2) 打开 文件 datall-6.sav, 单 击 Graphs 一 Boxplot, 进入 箱 图 主 对 话 框 ， 选中 Clustered 
和 Summaries for groups of cases, "iti Define 按钮 ， 进 入 复式 箱 图 定义 对 话 框 。 ZE Variable 
框 选 入 “体重 ”变量 ， 在 Category Axis 框 选 入 “婚姻 状况 ”变量 ， 在 Define clusters by 框 
先入“ 年龄 段 ” 变 量 ， 然 后 单 击 OK 按钮 ， 获 得 如 图 11-37 所 示 的 图 形 。 





18—35 36—55 
FRB 
图 11-36 3th 324 名 建筑 行业 农民 工 不 同年 龄 段 身 高 分 布 单 式 箱 图 
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统计 图 的 制 人 


年 龄 段 
18~35 
回 36-55 





未 婚 已 婚 
婚姻 状况 


图 11-37 某 地 324 名 建筑 行业 农民 工 不 同 婚姻 状况 分 年 龄 段 体 重 分 布 复 式 箱 图 


11.40 ”误差 条 图 


误差 条 图 (Error Bar) 是 一 种 用 于 描述 均 数 、 标 准 差 、 标 准 误 和 总 体 均 数 的 可 信和 区间 
等 指标 的 统计 图 。 
以 例 11-10 中 数据 为 例 。Q@ 用 单 式 误差 条 图 描述 不 同年 龄 段 农民 工 
身高 的 95% 可 信 区 间 ; @ 用 复式 误差 条 图 分 析 不 同 婚姻 状况 和 不 同年 龄 段 农 民工 的 体重 
分 布 情况 〈 均 数 土 2 倍 标准 差 )。 
实现 步骤 如 下 。 
(D 打开 文件 datal1-6.sav， 单 击 Graphs 一 Error Bar， 进 入 误差 条 图 主 对 话 框 ， 选 中 
Simple 和 Summaries for groups of cases, 单 击 Define 按钮 , 进入 单 式 误差 条 图 定义 对 话 框 。 
在 Variable 框 选 入“ 身高” 变量, 在 Category Axis 框 选 入 “年 龄 段 ” 变 量 , 在 Bars Represent 
选择 框 选择 Confidence interval for mean， 在 Level 框 可 选择 可 信 区 间 的 可 信和 度 (默认 值 为 
95%)， 单 击 OK 按钮 ， 获 得 如 图 11-38 所 示 的 图 形 。 
在 单 式 误差 条 图 定义 对 话 框 中 ，Bars Represent 选择 框 共 提供 3 个 选项 。 
e Confidence interval for mean: 总 体 均 数 的 可 信 区 间 ， 在 Level 框 可 选择 可 信和 区间 的 
可 信和 度 〈 默 认 值 为 95%)。 

e Standard error of mean: 给 出 均 数 土 若干 倍 标 准 误 的 区 间 ， 在 Multiplier 框 内 可 定义 
标准 误 的 倍数 默认 值 为 2)。 

* Standard deviation: 给 出 均 数 土 若 干 倍 标准 差 的 区 间 ， 在 Multiplier 框 内 可 定义 标准 
差 的 倍数 (默认 值 为 2)。 
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168 
166 二 
164 


162 


IgE ID %56 





-T 
18~35 ` 36—55 


年 龄 段 
图 11-38 某 地 324 名 农民 工 不 同年 龄 段 身 高 分 布 单 式 误差 条 图 (95% 可 信和 区 间 ) 


在 图 11-38 中 ， 线 段 中 间 的 圆圈 代表 变量 总 体 均 数 的 点 估计 值 ， 线 段 的 长 度 代表 总 体 
均 数 的 区 间 估 计 〈95% 可 信 区 间 )。 

(2) 打开 文件 datal1-6.sav， 单 击 Graphs 一 Error Bar， 进 入 误差 条 图 主 对 话 框 ， 选 中 
Clustered 和 Summaries for groups of cases， 单 击 Define 按钮 ， 进 入 复式 误差 条 图 定义 对 话 
JE. fE Variable 框 选 入 “体重 ”变量 , 在 Category Axis 框 先入 “婚姻 状况 ”变量 , 在 Define 
Clusters by 框 选 入 “年 龄 段 ” 变量 ， 在 Bars Represent 选择 框 选择 Standard deviation, TE 
Multiplier 框 填 入 2。 然 后 单 击 OK 按钮 ， 获 得 如 图 11-39 所 示 的 图 形 。 


年 龄 段 
I 18~35 
] 36~55 


Bh 3r GSC us 内 











未 婚 已 婚 
婚姻 状况 


图 11-39 茶 地 324 名 农民 工 不 同 婚姻 状况 分 年 龄 段 体重 分 布 复式 误差 条 图 (Mean t 28D) 
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11.11 分 群 金字 塔 图 


HRE TIE (Population Pyramid) 是 SPSS 13.0 新 增 的 一 种 图 形 ， 它 是 根据 不 同 的 
分 类 ( 群 ) 描述 变量 的 频数 分 布 。 分 群 金 字 塔 图 常用 于 人 口 的 性 别 、 年 龄 分 布 ， 以 年 龄 为 
纵 轴 ， 以 人 口 数 或 人 口 构成 为 横 轴 图 示人 口 的 性 别 、 年 龄 构成 。 所 以 在 人 口 学 和 卫生 统计 
领域 一 般 称 人 口 金字 塔 图 。 

以 2000 年 全 国人 口 资料 绘制 人 口 金字 塔 图 .2000 年 全 国人 口 的 性 别 、 
年 龄 别人 口 数据 见 表 11-4〈 见 配 书 光盘 中 的 文件 data11-7.sav 或 datal1-7.xls )。 


表 11-4 2000 年 全 国人 口 年 龄 别 、 性 别 分 布 〈 万 人 ) 


年 龄 段 男 女 
o~ 3764.8 3133.0 
5~ 4830.4 4184.9 
10~ 6534.5 6005.2 
15~ 5287.8 5015.3 
20~ 4793.8 4663.5 
25~ 6023.1 5737.1 
30~ 6536.0 6195.4 
35~ 5614.1 5300.6 

40— 4224.3 3900.0 
45~ 4394.0 4158.1 
50~ 3280.4 3050.0 
55— 2406.1 2230.9 
60— 2167.5 2002.9 
65— 1754.9 1723.1 
70— 1243.6 1313.8 
75~ 717.6 875.2 
80— 320.4 478.5 
85— 134.3 265.9 


实现 步骤 如 下 。 

建立 SPSS 数据 库 ( 结 构 如 图 11-40 所 示 , 见 文件 datal1-7.sav), 单 击 Graphs 一 Population 
pyramid, 进入 金字 塔 图 主 对 话 框 , 在 Counts 选项 中 选中 Get counts from variable, 在 Variable 
框 选 入 “人 口 数 ” 变 量 ， 在 Show Distribution over 框 选 入 “年 龄 段 ” 变量 ， 在 Split by # 
选 和 入“ 性别” 变量。 然后 单 击 OK 按钮 ， 获 得 如 图 11-41 所 示 的 图 形 。 
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性 别 


$m 3 R 











8000 6000 4000 2000 0 2000 4000 6000 8000 
人 口 数 (万 ) 人 口 数 (万 ) 


图 11-41 2000 年 全 国人 口 金字 塔 图 


11.12 ARB 


散 点 图 (Scatter Plots) 是 一 种 以 点 的 分 布 反映 变量 之 间 相 关 情 况 的 统计 图 。 根 据 散 点 
图 中 各 点 的 分 布 走 向 和 密集 程度 ,可 以 大 致 判断 变量 之 间 相 互 关 系 的 类 型 。SPSS 提供 了 5 
种 散 点 图 。 

e Simple Scatter: 简单 散 点 图 ， 描 述 两 个 变量 之 间 关 系 的 散 点 图 。 

e Overlay Scatter: 重 登 散 点 图 ， 同 时 描述 多 个 变量 两 两 之 间 关 系 的 散 点 图 。 

e Matrix Scatter: 矩阵 散 点 图 ， 以 矩阵 形式 显示 多 个 变量 之 间 的 关系 。 

e 3-D Scatter: 三 维 散 点 图 ， 显 示 3 个 变量 之 间 的 空间 关系 。 

e Simple Dot: 个 值 散 点 图 ， 只 描述 一 个 变量 在 数 轴 上 的 分 布 。 类 似 于 下 节 介 绍 的 直 

方 图 。 
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统计 图 的 


1. 简单 散 点 图 

以 例 11-10 中 资料 为 例 ， 绘 制 收缩 压 与 体重 之 间 的 散 点 图 。 

实现 步骤 如 下 。 

打开 文件 “datall-6.sav”, Hiit; Graphs 一 *Scatter/Dot， 选中 Simple Scatter， 单 击 Define 
按钮 ， 进 入 简单 散 点 图 对 话 框 。 在 Y axis 框 选 入 “收缩 压 ”变量 , 在 X axis 框 选 入“ 体重” 
变量 ， 单 击 OK 按钮 ， 获 得 如 图 11-42 所 示 的 图 形 。 


(38Hwwm) ppm 





体重 (kg) 
图 11-42 某 地 324 名 农民 工 收缩 压 与 体重 散 点 图 


2. BS SH 

绘制 收缩 压 与 体重 、 舒 张 压 与 体重 之 间 的 重 释 散 点 图 。 

实现 步骤 如 下 : l 

打开 文件 “datal1-6.sav”， 单 击 Graphs 一 Scatter/Dot, 选中 Overlay Scatter， 单 击 Define 
PU. NEAR REDE A 11-43)。 单 击 选中 左 侧 变量 列表 中 的 “收缩 压 ” 变量 ， 
此 时 该 变量 出 现在 左下 方 Current Selections 框 的 Variable 1 中 ;再 单 击 选中 “体重 ”变量 ， 
此 时 该 变量 出 现在 左下 方 Current Selections 框 的 Variable 2 中 ， 表 示 这 两 个 变量 进行 配对 。 
将 该 对 变量 选 入 Y-X Pairs 框 , 单 击 Swap Pair 按钮 , 可 调换 两 个 变量 的 先后 位 置 , 调 为 “ 收 
缩 压 一 体重 ”次 序 : 使 用 同样 的 方法 ， 选 入 “舒张 压 一 体重 ”变量 对 。 然 后 单 击 OK 按钮 ， 
获得 如 图 11-44 所 示 的 图 形 。 
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16 n Bes 
— 舒张 压 
v 体重 
14 
12 
血压 
(mmHg) 
10 
80 T w es - ix 
60 * E 
50.0 60.0 70.0 80.0 
体重 (kg) 
图 11-44 ”收缩 压 与 体重 、 舒 张 压 与 体重 之 间 的 重 登 散 点 图 
3. 和 矩阵 散 点 图 
Ld 例 11-15-1 | 绘制 舒张 压 、 收 缩 压 、 身 高 、 体 重 4 个 变量 的 矩阵 散 点 图 。 
实现 步骤 如 下 。 


打开 文件 “datal1-6.sav”， 单 击 Graphs 一 ScatterDot， 选 中 Matrix Scatter， 单 击 Define 
按钮 , 进入 矩阵 散 点 图 对 话 框 , 分 别 将 变量 身高 、 体 重 、 收缩 压 、 和 舒张 压 选 入 Matrix Variables 
选择 框 。 单 击 OK 按钮 ， 获 得 如 图 11-45 所 示 的 图 形 。 
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收 
缩 
压 
身高 体重 TIKE 收缩 压 
图 11-45 ”舒张 压 、 收 缩 压 、 身 高 、 体 重 4 个 变量 的 矩阵 散 点 图 
4. 三 维 散 点 图 


绘制 舒张 压 、 收 缩 压 、 体 重 3 个 变量 的 三 维 散 点 图 。 

实现 步骤 如 下 。 

打开 文件 “datal11-6.sav”， 单 击 Graphs 一 ScatterDot， 选 中 3-D Scatter， 单 击 Define 
按钮 ， 进 入 三 维 散 点 图 对 话 框 ， 分 别 将 变量 身高 、 收 缩 压 、 体 重 依 次 选 入 X axis. Y Axis. 
Z Axis 选择 框 。 然 后 单 击 OK 按钮 ， 获 得 如 图 11-46 所 示 的 三 维 散 点 图 。 


60.0 


150.0 
60.0 70.0 
1 170.0 180.080.0 体重 





图 11-46 舒张 压 、 收 缩 压 、 体 重 3 个 变量 的 三 维 散 点 图 
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5. 个 值 散 点 图 

用 个 值 散 点 图 描述 身高 的 分 布 情况 。 

实现 步骤 如 下 。 

打开 文件 “datall-6.sav”， 单 击 Graphs 一 ScatterDot， 选 中 Simple Dot， 单 击 Define 


按钮 ， 进 入 个 值 散 点 图 对 话 框 ， 将 “身高 ”变量 选 入 XX axis Variable 框 。 然 后 单 击 OK 按 
钮 ， 获 得 如 图 11-47 所 示 的 个 值 散 点 图 。 





150 160 170 180 
身高 
图 11-47 身高 分 布 的 个 值 散 点 图 


11.13 ”直方 图 


直方 图 (histogram) 用 于 表示 连续 变量 的 频数 分 布 。 横 轴 表 示 被 观察 的 指标 ， 纵 轴 表 
示 频 数 或 频率 ， 以 直 条 的 面积 代表 各 组 段 的 频率 或 频数 。 

以 例 11-10 中 的 体检 资料 为 例 ， 用 直方 图 描述 身高 的 频数 分 布 。 

实现 步骤 如 下 。 

打开 文件 “datall-6.sav”， 单 击 Graphs 一 Histogram， 进 入 直方 图 主 对 话 框 ， 将 “身高 ” 
变量 选 入 Variable 框 ， 选 中 Display normal curve 〈 绘 制 以 样本 统计 量 为 参数 的 正 态 分 布 曲 
线 )， 单 击 OK 按钮 ， 获 得 如 图 11-48 所 示 的 直方 图 。 
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Mean = 163.935 
Std.Dev. = 7.0951 
N = 324 


Frequency 





150.0 160.0 170.0 180.0 
身高 
11-48 ”身高 分 布 的 直方 图 


11.44 P-P 概率 图 


P-P 概率 图 (P-P Probability Plot) 是 以 变量 的 累积 概率 对 应 于 某 种 理论 分 布 的 累积 概 
率 为 基础 而 绘制 出 的 散 点 图 。 它 可 以 直观 检测 样本 数据 是 否 与 某 种 理论 概率 分 布 图 形 相 一 
致 ， 若 一 致 ， 则 样本 数据 点 应 围绕 在 一 条 线 周 围 ， 或 实际 累积 概率 和 理论 累积 概率 之 差 随 
机 分 布 在 y=0 这 条 直线 的 上 下 。 

绘制 P-P 概率 图 分 析 例 11-10 资料 中 身高 分 布 的 正 态 性 检验 。 

实现 步骤 如 下 。 

(X) 打开 SPSS 文件 “datal1-6.sav”， 单 击 Graphs P-P, HEA P-P 概率 图 对 话 框 ( 见 
图 11-49) 。 

e Variables: 填 入 被 检验 的 变量 ， 如 果 选 入 多 个 变量 ， 则 有 几 个 变量 就 生成 几 个 相应 

的 P-P 概率 图 。 

* Test Distribution: 选择 用 于 检验 的 理论 分 布 , SPSS 13.0 提供 了 13 种 分 布 可 供 选择 。 

NIS Beta), -F 77 21 fi CChi-square? . 1835 4) fi (Exponential), 411334) 4i (Gamma) 
半 正 态 分 布 “Half-Normal)、 拉 普 拉 斯 分 布 (Laplace). logistic 分 布 (Logistic). 2 3 IEZSS 
分 布 《Lognormal)、 正 态 分 布 (Normal)、 帕 累 托 分 布 Pareto)、t 分 布 (Student t)、 威 布 
尔 分 布 (Weibull)、 均 匀 分 布 (Uniform ) 。 

若 选 择 的 分 布 涉 及 自由 度 ， 则 下 面 的 df 被 激活 ， 填 入 自由 度 。 
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图 11-49 P-P 概率 图 对 话 框 


° Distribution Parameters: 分 布 参数 ， 系 统 默 认 Estimate from data， 表 示 系 统 将 自动 
从 检验 变量 值 推测 数据 分 布 的 参数 , 否则 需 在 该 选项 下 方 的 参数 框 中 根据 需要 自行 
指定 。 选 择 不 同 的 分 布 ， 需 指定 的 参数 不 同 ， 参 数 框 也 不 同 。 
e Transform: 用 于 设置 变量 转换 方式 。 
> Natural log transform: 自然 对 数 转换 。 
> Standardize values: 标准 化 转换 ， 将 原 有 变量 转换 成 均值 为 0， 方差 为 1 的 样本 。 
> Difference: 差分 转换 ， 用 连续 两 个 数据 的 差 值 替 换 原 数据 。 输 入 一 个 正 整数 确 
定 差分 度 。 

> Seasonally difference: 季节 差分 转换 ， 计 算 时 间 序 列 中 两 个 固定 间距 的 数据 差 来 
代替 原 有 时 间 序 列 数据 。 

> Current Periodicity: 当前 时 间 周 期 ， 用 来 确定 计算 时 间 序 列 的 季节 差分 。 

è Proportion Estimation Formula: 用 于 选择 计算 期 望 概率 分 布 的 公式 ， 每 次 只 能 选择 
其 中 一 项 。 在 以 下 公式 中 ，n ERHO rÆ A~n 之 间 )。 
> Blom's 法 (r-3/8)/(n+1/4); 
> Rankit 法 (r-1/2)/n; 
> Tukey's 法 (r-1/3)/(n+1/3); 
> Van der Waerden's 法 r/(n+1)- 

* Rank Assigned to Ties: 选择 确定 相同 数值 的 秩 次 的 方法 。 
> Mean: 取 平 均 秩 次 ; 
> High: 取 最 高 秩 次 ; 
> Low: 取 最 低 秩 次 ; 
> Break ties arbitrarily: 绘制 每 个 相同 数值 的 观察 值 ， 忽 视 其 权重 。 

(A) 在 P-P 概率 图 对 话 框 中 ， 在 Variables 框 选 入 “身高 ”变量 ， 在 Test Distribution 


选择 框 选择 Normal, 其 余 选 项 保留 系统 默认 选择 。 单 击 OK 按钮 , 获得 如 图 11-50 和 图 11-51 
所 示 的 图 形 。 
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统计 图 的 制 人 


Expected Cum Prob 





0.0 0.2 0.4 0.6 0.8 1.0 
Observed Cum Prob 


K 11-50 某 地 324 名 农民 建筑 工 身 高 正 态 检 验 P-P 概率 图 


Deviation from Normal 











0.0 0.2 0.4 0.6 0.8 1.0 
Observed Cum Prob 


图 11-51 3&3 324 名 农民 建筑 工 身高 正 态 检验 去 势 P-P 概率 图 


图 11-50 显示 数据 与 理论 直线 (对 角 线 ) 基本 重合 ， 图 11-51 显示 实际 累积 概率 和 按 
正 态 分 布 计算 的 理论 累积 概率 之 差 基 本 随机 分 布 在 y=0 这 条 直线 的 上 下 ， 其 差 值 的 绝对 值 
都 在 0.06 以 内 。 两 个 图 形 均 提示 该 组 数据 服从 正 态 分 布 , 不 过 精确 的 推断 还 需 进 一 步 的 假 


11.15 Q-Q 概率 图 
Q-Q 概率 图 与 P-P 概率 图 的 原理 与 用 法 基本 相似 ， 都 可 用 于 分 布 状态 的 检验 。 不 同 的 
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DEN 与 统计 分 析 


是 ，Q-Q 概率 图 是 以 变量 分 布 的 分 位 数 与 理论 分 布 的 分 位 数 为 基础 绘制 的 图 形 。Q-Q 概率 
图 纵 坐 标 采 用 的 是 概率 单位 而 非 概率 本 身 。Q-Q 概率 图 的 各 个 对 话 框 与 P-P 概率 图 的 对 话 
框 完全 一 样 ， 对 变量 的 分 析 步 又 也 完全 相同 。 

用 Q-Q 概率 图 分 析 例 11-10 “datal1-6.sav” 文件 中 身高 变量 的 正 态 性 

实现 步骤 如 下 。 

打开 SPSS 文件 “datall-6.sav”, 单 击 Graphs—Q-Q, 进入 Q-Q 概 率 图 对 话 框 ,在 Variables 
框 先入“ 身高” 变量， 在 Test Distribution 选择 框 选择 Normal， 其 余 选 项 保留 系统 默认 选 
择 。 单 击 OK 按钮 ， 获 得 如 图 11-52 和 图 11-53 所 示 的 图 形 。 

图 形 提 示 的 结果 与 P-P 概率 图 相同 。 


180 


160 


Expected Normal Value 


150 
° 


150 160 170 180 
Observed Value 


图 11-52 某 地 324 名 农民 建筑 工 身高 正 态 检验 Q-Q 概率 图 


2 





Deviation from Normal 











T 
150 160 170 180 
Observed Value 


Æ 11-53 Hh 324 名 农民 建筑 工 身高 正 态 检 验 去 势 Q-Q 概率 图 
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统计 图 的 制作 区 于 TEE 


11.16 ”序列 图 


序列 图 (Sequence Charts) 常用 来 表现 一 组 或 几 组 观察 值 随 另 一 序列 变量 变化 的 状态 
和 趋势 。 实 际 上 是 一 种 曲线 走势 图 。 

以 例 11-3 中 “datal1-2.sav” 数 据 文件 为 例 ， 绘 制 1990—2003 年 我 国 
普通 高 校 与 普通 医药 高 校 招 生 人 数 序 列 图 。 

实现 步骤 如 下 。 

打开 SPSS 文件 “datal1-2.sav”， 单 击 Graphs 一 Sequence， 进 入 序列 图 主 对 话 框 〈 见 图 
11-54), 在 Variables 框 选 入 “普通 高 校 招生 人 数 ”“ 医 药 高 校 招 生 人 数 ” 变 量 , 在 Time Axis 
Labels HEA “FH” XE, E Transform 选项 中 选中 Natural log transform 〈 进 行 对 数 变 
换 )， 其 余 选 项 保留 系统 默认 选择 。 单 击 OK 按钮 ， 获 得 如 图 11-55 所 示 的 图 形 。 


[^ One chart per variable Time Lines... | Format... 





图 11-54 序列 图 主 对 话 框 


在 序列 图 主 对 话 框 中 , Time Lines 为 时 间 参 考 线 , 单 击 后 进入 序列 图 时 间 参 考 线 对 话 框 。 
* No reference lines: 无 时 间 参 考 线 (系统 默认 )。 图 11-55 即 为 无 时 间 参 考 线 时 的 序 
列 图 。 
* Lines at each change of: 表示 根据 某 变 量 确 定时 间 参 考 线 ， 选 择 的 参考 变量 有 多 少 
个 不 等 的 值 ， 即 可 绘制 多 少 条 时 间 参 考 线 。 
* Line at date: 选择 该 项 则 序列 图 只 显示 一 条 时 间 参 考 线 。 在 Observation 框 输入 一 
个 正 整 数 ， 表 示 在 第 几 个 变量 值 处 显示 时 间 参 考 线 。 
SPSS 还 提供 了 时 间 序 列 图 (Time Series), ROC 曲线 (ROC Curve) 的 绘制 ， 详 见 本 
书 的 有 关 章 节 。 
另外 , 主 菜单 Graphs 还 提供 了 11 种 交互 图 形制 作 的 子 菜单 (Interactive), 与 一 般 SPSS 
图 形 相 比 ， 交 互 图 具有 动态 、 立 体 、 色 彩 更 丰富 等 特点 ， 但 所 代表 的 内 容 与 一 般 SPSS 图 
形 相 同 ， 本 书 不 做 介绍 。 
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一 一 普通 高 校 招生 人 数 
一 一 医药 高 校 招 生 信 数 








1991 1993 1995 1997 1999 2001 2003 
年 份 


图 11-55 1990—2003 年 我 国 普 通 高 校 与 医药 高 校 招生 人 数 序列 图 〈 数 据 经 对 数 变换 ) 


11.17 ”统计 图 形 的 编辑 加 工 


前 面 介绍 的 统计 图 形 的 制作 ， 图 形 结果 显示 在 结果 输出 窗口 。SPSS 提供 了 统计 图 形 
编辑 器 ， 我 们 可 以 根据 不 同 的 要 求 ， 对 输出 的 图 形 进行 编辑 加 工 。 


11.17.1 图 形 编辑 窗口 简介 


对 统计 图 形 进 行 编辑 加 工 ， 首 先 需 进入 图 形 编辑 器 界面 。 有 三 种 途径 可 进入 该 界面 : 

e 在 结果 输出 窗口 双击 想 要 编辑 加 工 的 统计 图 形 ; 

e 选中 想 要 编辑 加 工 的 统计 图 形 后 ， 单 击 右键 ,在 弹出 对 话 框 中 选择 SPSS Chart 
Object—Open: 

。 选中 想 要 编辑 加 工 的 统计 图 形 后 ， 在 结果 输出 窗口 的 Edit 菜单 下 选择 Edit—SPSS 
Chart Object 一 Open 。 

图 形 编 辑 窗口 见 图 11-56， 此 时 在 结果 输出 窗口 中 ， 被 编辑 的 图 形 为 阴影 背景 。 

(1) File 菜单 

e Save Chart Template: 将 图 形 存 为 模板 文件 。 

e Apply Chart Template: 调用 已 有 的 图 形 模板 。 

。 Export Chart XML: 将 图 形 存 为 XML 文件 。 
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H375, W488 75 points 








图 11-56 图 形 编辑 窗口 


(2) Edit 菜单 

提供 图 形 特征 编辑 功能 ， 包 括 X, Y, Z 轴 的 编辑 修改 选项 。 

(3) View 菜单 

图 形 编辑 窗口 工具 栏 视 图 选择 。 

(4) Options 菜单 

主要 提供 参考 线 、 标 题 、 注 释 、 文 字 框 、 脚 注 的 编辑 和 刻度 线 、 轴 线 、 图 例 的 显示 或 
隐藏 功能 。 

(5) Elements 菜单 

一 些 图 形 元 素 的 编辑 。 

(6) Transform 3 

SPSS 各 种 图 形 之 间 的 切换 。 

(7) Help 菜单 

提供 SPSS 软件 的 帮助 功能 。 


11.17.2 图形 特征 的 编辑 

1. SPSS 图 形 共 同 特征 的 编辑 

激活 图 形 编辑 窗口 后 ， 双 击 所 要 编辑 图 形 的 任何 空白 处 ， 或 通过 菜单 选择 Edit— 
Properties 命令 ， 即 可 弹出 适用 于 所 有 SPSS 图 形 的 图 形 特征 对 话 框 ( 见 图 11-57, Ed 11-58 
和 图 11-595. 

(1) Chart Size( 图 形 大 小 ， 见 图 11-57) 

定义 图 形 的 高 度 和 宽度 。 如 果 选 中 Maintain aspect ratio， 则 图 形 的 宽 和 高 遵循 系统 设 
定 的 比例 ， 当 调整 其 中 任何 一 项 时 ， 另 一 项 依 比 例 自 动 调整 。 图 形 大 小 调整 过 小 ， 图 形 各 
元 素 容 易 出 现 重 辣 ,图形 中 的 文字 大 小 不 随 图 形 大 小 的 调整 而 调整 , 需 单独 调整 文字 字号 。 
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与 统计 分 


[Chart Size | F & Border | Variables | 


Size in points 
Height: | 3755] Wan | 46875] 


[Z Maintain aspect ratio 








图 11-57 图 形 大 小 对 话 框 


(2) Fill&Border (填充 和 边缘 ， 见 图 11-58) 

e Fill: 图 形 填 充 色 。 

* Border: 图 形 边缘 的 颜色 。 

e Pattern: 背景 图 案 。 

* Border Style: 边缘 线条 的 样式 ， 包 括 粗细 (Weight) XA! (Style, UHR, A 
种 虚线 等 )。 

(3) Variables (变量 选择 ， 见 图 11-59) 

可 重新 进行 变量 组 合 。 


Chart Size | FB & Border {Variables 


Y-Axis: 

















图 11-58 ”填充 和 边缘 对 话 框 图 11-59 ”变量 选择 对 话 框 
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2. 不 同 SPSS 图 形 特征 的 编辑 
在 所 要 编辑 的 图 形 中 双击 某 一 个 图 形 元 素 , 如 直方 、 线 条 、 散 点 等 , 均 会 弹出 Properties 
对 话 框 ， 对 话 框 中 除 包 括 共 同 特征 对 话 框 〈 图 11-57. Ed 11-58 和 图 11-59) 外 ， 还 包括 针 
对 不 同 图 形 元 素 的 特定 图 形 特征 对 话 框 。 下 面 分 别 介 绍 各 种 SPSS 图 形 的 编辑 。 
(1) 条 图 
在 编辑 条 图 时 ， 进 入 图 形 编辑 窗口 后 ， 双 击 图 形 中 的 条 体 ， 即 可 弹出 条 图 特征 编辑 对 
话 框 ， 除 SPSS 图 形 共 同 特征 对 话 框 外 ， 还 包含 3 个 对 话 框 〈 见 图 11-60. Ej 11-61 和 图 
11-62). 
Categories (分 类 变量 编辑 ， 见 图 11-600: 可 以 选择 不 同 的 分 类 变量 ， 也 可 以 对 分 类 变 
量 的 水 平 重新 排列 ， 增 加 或 减少 分 类 变量 的 水 平 。 在 图 形 编辑 窗口 双击 SPSS 图 形 任何 空 
白 处 时 ， 弹 出 的 SPSS 图 形 共同 特征 的 编辑 窗口 虽然 不 包括 如 图 11-60 所 示 的 对 话 框 ， 但 该 
对 话 框 在 多 数 图 形 特征 编辑 窗口 均 出 现 ， 故 以 后 在 介绍 各 种 图 形 的 特征 编辑 时 不 再 做 介绍 。 
Bar Option 〈 直 条 选项 ， 见 图 11-61): 
° Width: 定义 直 条 的 宽度 。 
> Bars: 所 有 直 条 的 宽度 之 和 占 横 轴 长 度 的 比例 。 
> Scale boxplot and error bar width based on count: 根据 分 类 变量 的 分 组 水 平 自 动 调 
整 方 条 的 宽度 。 
> Clusters: 复式 条 图 各 艇 (Clusters〉 间 间距 占 条 宽 的 比例 。 
° Boxplot and Error Bar Style: 直 条 和 误差 条 的 样式 类 型 。 
* Stacked Bars: 分 段 条 型 。 
> Scale by statistics: 分 段 长 度 根据 统计 量 大 小 确定 。 
> Scale by 100%: 分 段 长 度 根据 百分比 确定 。 





[ Collapse (sum) categories less than F~ x 
Categories 


Sot by: [custom -] [scenama 7] 


[15-864 (15-64. 
|es 风 及 以 (65 岁 及 以 ) 


| 
Danit 


| 
| 


Lowermagn(%y [5 — Uppermegnew Ë 
Lan | ge | m | 
图 11-60 条 图 分 类 变量 编辑 对 话 框 图 11-61 条 图 直方 条 编辑 对 话 框 
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DRN 与 统计 分 析 —— 


Depth& Angle (条 形 效果 ， 见 图 11-620: 条 形 效果 (Effect) 包括 平面 (Flat)、 阴 影 
(Shadow) 和 三 维 (3-D) 效果 。 选 择 阴 影 和 三 维 效果 后 ， 可 激活 角度 (Angle) 的 调整 功 
能 ， 可 定义 阴影 或 条 柱 的 角度 。 通 过 三 维 效果 选项 ， 还 可 定义 条 柱 的 前 后 边 距 (Margin), 
以 及 拉 近 和 推 远 的 视觉 效果 (Distance), 

(2) 3-D 条 图 

双击 3-D 条 图 中 的 方 柱 ， 可 打开 3-D 条 图 特征 编辑 对 话 框 ， 在 条 图 图 形 的 特征 编辑 对 
话 框 基础 上 ， 没 有 条 形 效 果 (Depth& Angle) 对 话 框 ， 增 加 了 3-D Rotation (3-D 旋转 ) 对 
话 框 〈 见 图 11-63)， 与 条 图 条 形 效果 编辑 对 话 框 中 的 3-D 效果 选项 相似 。 








图 11-62 条 图 条 形 效 果 编 辑 对 话 框 图 11-63 3-D 条 图 旋转 对 话 框 


(3) 线 图 
双击 线 图 中 的 线条 ， 可 打开 线 图 特征 编辑 对 话 框 ， 其 特有 的 编辑 对 话 框 见 图 11-64、 
图 11«65 和 图 11-66. 
e Lines: 线段 编辑 ( 见 图 11-64)， 主 要 定义 线条 的 颜色 、 粗 细 、 线 型 等 。 
e Interpolation Line: 线 型 更 改 ( 见 图 11-65)， 可 供 选 择 的 线 型 有 Straight (直线 )、Step 
(阶梯 线 )、Jump〔 跳 跃 线 )、Spline 〈 平 滑 线 ) 4 fb. 
e Line Options: 线 图 选项 〈 见 图 11-66). 
> Display category range bars: 在 多 线 图 中 ， 用 纵 线 连接 各 线段 每 一 分 类 变量 点 。 
> Display projection line: 标 出 需要 重点 显示 的 区 间 。 可 选择 重点 显示 的 区 间 的 起 
Ji (Star) 和 方向 (Direction: Before/After)。 定 义 此 项 后 ， 需 要 重点 显示 的 区 间 
的 线段 将 被 加 粗 。 
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图 11-64 ” 线 图 线段 编辑 对 话 杠 图 11-65 ” 线 图 线 型 更 改 对 话 杠 


(4) AK 

圆 图 特征 编辑 对 话 框 见 图 11-67。 和 条 图 的 Depth& Angle (条 形 效果 ) 对 话 框 类 似 ， 
只 是 增加 了 Position Slices 选项 。 

First slice (clock position): 以 时 间 点 定义 起 始点 位 置 ， 默 认 以 12 点 为 起 始点 。 各 部 
分 的 排列 COrder of Slice) 有 顺 时 针 〈Clockwise) Hir (Counterclockwise) 两 种 排列 
顺序 可 供 选 择 。 


Posion Sipig ——— — — — — — 


First sice (clock postion} [1200 ~ 
TOrder of Sice — — 
| 大 

2 














图 11-66 线 图 选项 对 话 框 图 11-67 圆 图 特征 编辑 对 话 框 


(5) 散 点 图 


在 图 形 编辑 窗口 双击 散 点 图 中 的 任何 散 点 即 可 进入 散 点 图 特征 编辑 窗口 ， 见 图 11-68、 
图 11-69 和 图 11-70。 
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e Marker: 点 标记 ， 可 以 定义 散 点 的 形状 (Type)、 大 小 (Size) 、 边 缘 的 粗细 〈Border 
Width)、 边 缘 的 颜色 (Border Color) 及 点 的 填充 色 (Fill). 

e Spikes: 显示 数据 点 与 其 他 点 的 连 线 ， 选 项 包括 None， 无 连 线 ，Floor， 与 X 轴 的 
垂直 连 线 ，Origin， 与 原始 点 连 线 ，Centroid， 与 散 点 重心 的 连 线 。 

e Point Bins: 数据 相同 或 相近 的 散 点 的 标示 。 选 择 Display As Data Points， 表 示 散 点 
图 显示 所 有 的 数据 点 ， 相 同 的 数据 只 显示 一 个 点 ; 而 选择 Display As Bins, fk 
点 图 可 将 相同 或 相近 的 数据 点 以 不 同 的 散 点 大 小 或 颜色 (Count Indicator: Marker 
Size/Color Intensity) 标示 数据 点 的 个 数 。 相 同 或 相近 的 数据 点 位 置 、 排 列 方式 以 及 
多 少 相近 数据 点 组 在 一 起 均 可 定义 。 











图 11-68 ” 散 点 图 点 标记 特征 编辑 对 话 框 图 11-69 ” 散 点 图 数据 点 连 线 特征 编辑 对 话 框 
(6) 直方 图 
直方 图 的 特征 编辑 对 话 框 见 图 11-71。 











图 11-70 HE E Point Bins 特征 编辑 对 话 框 K 11-71. 直方 图 的 特征 编辑 对 话 框 
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. 统计 图 的 制 人 


° Display normal nume 绘制 以 样本 统计 量 为 参数 的 正 态 分 布 曲 线 。 
° Anchor First Bin: 定义 第 一 个 直 条 的 起 始 位 置 。 
° Bin Sizes: 定义 直 条 的 组 距 ， 可 由 系统 自动 生成 或 根据 情况 和 需要 自 定义 。 


11.17.3 ”坐标 轴 编 辑 


在 图 形 编辑 窗口 双击 坐标 轴 , 弹出 坐标 轴 编 辑 对 话 框 ( 见 图 11-72、 图 11-73、 图 11-74. 
图 11-75 和 图 11-76)。 双 击 坐 标 轴 的 不 同 内 容 (坐标 轴 直 线 、 刻 度 线 、 文 字 )， 根 据 坐 标 
轴 表 示 的 变量 是 分 类 指标 或 计量 指标 的 不 同 ， 弹 出 的 对 话 框 组 合 略 有 不 同 。 

(1) Lines 

定义 坐标 轴线 段 的 粗细 、 线 型 〈 实 线 、 虚 线 等 )、 颜 色 等 〈 见 图 01-72). 

(2) Labels & Ticks 

定义 坐标 轴 的 标记 ( 见 图 11-73). 





[7 Display axis tle Display axis onthe: efeut =| 
“Major Increment Labels x 
[S Display labels 


Label orientation [Horizontal AJF 








图 11-72 ”坐标 轴线 段 对 话 框 图 11-73 ”坐标 轴 标 记 对 话 框 


° Display axis title: 显示 坐标 轴 标 目 。 默 认 坐 标 轴 标 目的 位 置 在 了 轴 的 左 侧 和 义 轴 的 
底部 。 选 择 Display axis on the Opposite， 表 示 标 目 在 了 轴 右 侧 和 大 轴 上 部 。 

* Major Increment Labels: 显示 刻度 值 标记 。 选 择 显示 刻度 值 后 ， 可 选择 刻度 值 的 显 
示 方 向 〈 水 平 、 垂 直 、 和 斜 向 等 )。 

° Major Ticks: 主 刻 度 线 标记 。 是 否 显示 主 刻 度 线 ， 显 示 位 置 可 选 内 侧 、 外 侧 、 双 侧 。 

° Minor Ticks: 次 刻度 线 标记 。 是 否 显示 次 刻度 线 ， 显 示 位 置 可 选 内 侧 、 外 侧 、 双 侧 。 
还 可 定义 主 刻度 线 之 间 次 刻度 线 的 数量 。 

如 果 要 编辑 的 坐标 轴 表 示 的 是 分 类 变量 ， 则 可 定义 分 类 变量 在 坐标 轴 上 的 显示 方式 
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(Category Labels Placement) . 
(3) Number Format 
定义 坐标 轴 数 值 格式 〈 见 图 11-74). 
e Decimal Places: 定义 小 数位 数 。 
e Scaling Factor: 坐标 轴 刻 度 缩小 倍数 。 坐 标 轴 刻 度 为 原 刻 度 除 以 填 入 的 数值 所 得 。 
e Leading Characters: 在 刻度 数值 前 加 字符 。 
e Trailing Characters: 在 刻度 数值 后 加 字符 。 
e Display Digit Grouping: 加 千 分 位 符号 ， 即 从 个 位 数 起 ， 每 三 位 数 之 间 加 逗 点 。 
e Scientific Notation: 科学 计数 法 。 
(4) Text 
文字 编辑 框 ， 定 义 选中 文字 的 字体 、 字 型 、 字 号 、 颜 色 等 〈 见 图 11-75)。 





图 11-74 “坐标 轴 数 值 格式 对 话 框 11-75 “坐标 轴 文 字 编 辑 对 话 框 


(5) Scale 

定义 坐标 轴 刻 度 《〈 见 图 11-76). 

Range: 定义 坐标 轴 刻 度 的 最 大 值 、 最 小 值 、 主 刻度 间距 和 原点 起 始 数值 。(Data 
下 显示 数据 为 本 组 资料 的 最 小 值 和 最 大 值 )。 

Type: 坐标 轴 刻 度 类 型 。 可 选项 有 Linear (算术 刻度 )、Logarithmic( 对 数 刻度 )、 
Power (ZJE). 

Lower margin (96): 在 坐标 轴 的 最 小 刻度 前 增加 定义 轴 长 度 的 百分比 〈 系 统 默认 为 
坐标 轴 长 度 的 5% )。 

Upper margin (96): 在 坐标 轴 的 最 大 刻度 后 增加 定义 轴 长 度 的 百分比 〈 系 统 默认 为 
坐标 轴 长 度 的 5%). 
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v 








图 11-76 ”坐标 轴 刻 度 对 话 框 


11.17.4 图 例 的 编辑 


SPSS 在 一 个 图 形 中 区 分 不 同 分 组 的 图 例 ， 系 统 常用 不 同 的 颜色 予以 区 别 。 我 们 可 根 
据 实际 需要 ， 选 择 其 他 区 分 方式 〈 如 不 同 的 填充 图 案 )。 在 图 形 编辑 窗口 双击 图 例 ， 即 可 
选中 图 例 及 该 图 例 所 代表 的 分 组 的 图 形 ， 进 入 编辑 窗口 ， 选 择 Fill&Border (填充 和 边缘 ) 
编辑 窗 对 所 选 内 容 进行 编辑 。 


11.17.5 ”添加 和 显示 /隐藏 图 形 元 素 


在 图 形 编辑 窗口 单 击 右键 ， 弹 出 Properties Window (图 形 特 征 窗 ， 见 图 11-77， 该 窗 
口 由 于 编辑 图 形 的 种 类 不 同 ， 略 有 差异 ) 菜单 。 选 择 菜单 中 相应 内 容 后 ， 图 中 会 相应 添加 
《Add)、 显 示 或 隐藏 (Show/Hide) 此 内 容 。 如 添加 新 的 内 容 ， 在 图 形 特征 对 话 框 中 将 增加 
一 个 相应 内 容 的 对 话 框 。 

e Add X Axis Reference Line: 在 X 轴 上 添加 一 条 平行 于 了 轴 的 参考 线 。 若 要 改变 此 线 

的 位 置 ， 可 直接 拖 动 到 指定 的 位 置 ， 也 可 从 增加 的 特征 对 话 框 中 定义 参考 线 的 位 置 。 

* Add Y Axis Reference Line: 在 了 轴 上 添加 一 条 平行 于 X 轴 的 参考 线 。 

* Add Reference Line from Equation: 在 坐标 平面 添加 一 条 自 左下 至 右上 的 对 角 参 考 线 。 

* Add Title: 添加 标题 。 

e Add Annotation: 添加 注释 。 

* Add Text Box: 添加 文字 框 。 可 添加 任何 文字 信息 。 
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Add Footnote: 添加 注脚 。 


其 中 ，Add Title. Add Annotation. Add Text Box 和 Add Footnote 四 项 添加 内 容 均 是 以 
文本 框 的 形式 在 图 中 添加 文字 ， 且 文本 框 均 可 拖 动 到 图 中 任何 指定 的 位 置 。 


Show/Hide Grid Lines: 显示 或 隐藏 ) 刻度 格 。 选 择 该 项 后 ， 坐 标 平面 在 刻度 处 显 
示 平 行 于 X 轴 和 了 轴 的 网 格 线 。 在 特征 编辑 窗口 还 可 定义 网 格 线 是 出 现在 主 刻度 处 
或 次 刻度 处 ， 也 可 两 处 均 有 网 格 线 。 

Show/Hide Derived Axis: 显示 (或 隐藏 ) 衍生 轴 。 选 择 显 示 该 项 后 ， 在 图 形 的 上 方 
出 现 另 一 条 横 轴 ， 在 图 形 的 右 方 出 现 另 一 条 纵 轴 。 若 坐标 轴 表 示 分 类 变量 ， 则 不 显 
示 该 轴 的 衍生 轴 。 

Show/Hide Legend: 显示 或 隐藏 ) 图 例 。 

Transpose Chart: 转 置 横 轴 和 纵 轴 。 

Show/Hide Data Labels: 显示 (或 隐藏 ) 数值 标签 。 选 择 显示 该 项 后 ， 将 显示 图 形 
所 代表 的 具体 数值 。 可 从 增加 的 特征 对 话 框 中 《〈 见 图 11-78) 定义 数值 标签 具体 显 
示 哪 些 变量 值 。 


Copy Chart 

LL Add Z Axis Reference 
= Add I Axis Reference Line 
1 Add Title 

le hdd Annotation 

[e Add Iext Box 

l Add Footnote 

i Show Grid Lines 

Li Show lerived Axis 

WË Hide Legend 

E. Transpose Chart 

lis. Show Date Labels 

i: Show Line Markers 

L Add Interpolation Line 
lk Stacked Bar 

lb Change to Clustered Bar 
la Chance to Aree 





11-77 图 形 特 征 窗 菜单 图 11-78 ”数值 标签 编辑 对 话 框 


Show/Hide Line Markers: 显示 (或 隐藏 ) 线段 的 点 标记 。 选 择 显 示 该 项 后 ， 线 图 中 
显示 每 个 数值 点 。 

Add Interpolation Line: 添加 连 线 。 选 择 此 项 后 ， 各 数值 点 自 左 向 右 相 连 ， 连 线 的 方 
式 有 4 种 选择 ， 与 线 图 的 特征 编辑 相同 。 

Add Fit Line at Total: 添加 全 部 散 点 的 拟 合 线 。 拟 合 线 的 类 型 可 在 新 增 的 特征 编辑 
对 话 框 中 定义 ， 系 统 默认 为 回归 直线 。 
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随 着 先进 技术 的 迅猛 发 展 ， 各 种 诊断 设备 、 试 剂 、 方 法 等 层出不穷 ， 对 其 诊断 试验 准 
确 度 做 出 评价 , 不 仅 对 提高 医疗 服务 质量 有 帮助 , 而 且 对 遏制 医疗 费用 的 异常 增长 也 有 益 。 


12.1 常用 的 诊断 试验 评价 指标 


对 于 诊断 试验 (Diagnostic Test) 的 评价 ， 首 先 应 知道 受 试 者 (人 、 动 物 或 影像 等 ) 的 
真实 分 类 情况 ， 即 哪些 属于 对 照 组 (或 无 病 组 、 正 常 组 、 品 声 组 等 )， 哪 些 属于 病例 组 (或 
有 病 组 、 蜡 常 组 、 信 号 组 等 )。 划 分 它们 的 标准 就 是 金 标准 (Gold Standard)。 医 学 研究 中 
常见 的 金 标 准 有 : 跟踪 随访 、 活 组 织 检查 、 尸 体 解 剖 、 手 术 探 查 等 。 尽 管 金 标准 不 需要 十 
全 十 美 , 但 是 它们 应 比 评价 的 诊断 试验 更 可 靠 ， 且 与 评价 的 诊断 试验 无 关 ( 即 相互 独立 )。 
对 于 按 金 标准 确定 的 二 项 分 类 总 体 ， 如 病例 与 对 照 ( 分 别 记 为 D 与 D_)， 采 用 需要 评价 
的 诊断 试验 进行 检测 ， 其 诊断 结果 分 别 写成 阳性 与 阴性 ( 记 为 与 T. )， 资 料 可 列 成 如 表 
12-1 所 示 的 四 格 表 形式 。 表 中 有 4 个 可 能 结果 ， 其 中 两 个 是 正确 的 ， 即 病例 被 诊断 为 阳性 
( 真 阳性 和 对 照 被 诊断 为 阴性 〈 真 阴性 ); 两 个 是 错误 的 ， 即 病例 被 诊断 为 阴性 〈 假 阴性 ， 
或 漏诊 ) 和 对 照 被 诊断 为 阳性 〈 假 阳性 ， 或 误诊 )。 


表 12-1 诊断 资料 2x2 四 格 表 


金 标准 (D) 
诊断 结果 (T) 合 计 
病例 ( D. ) 非 病 例 ( D. ) 
阳性 (T, ) TP (CA) FP ( 假 阳 性 ) TP +FP 
阴性 CT.) FN ( 假 阴性 》 TN ( 真 阴性 ) FN +TN 
合计 TP +FN FP +TN N 


采用 ECG (心电图 ) 对 具有 急性 持久 胸痛 的 700 名 患者 进行 诊断 ， 经 


1 本 文 受 国 家 自然 科学 基金 〈 编 号 30371254) 资助 。 


与 统计 分 
证 实 有 520 例 出 现 心肌 梗塞 ， 其 余 180 例 没 有 出 现 心 肌 梗 塞 ， 结 果 见 表 12-2( 见 配 书 光盘 
中 的 数据 文件 datal2-1.xls 或 datal2-1.sav)。 试 计算 ECG 诊断 试验 的 几 个 常用 评价 指标 。 


表 12-2 ECG 诊断 试验 的 结果 
心肌 梗塞 


ECG MAR ——— 合 计 
出 现 不 出 现 
阳性 415 (TP) 10 (FP) 425 
阴性 105 (FN) 170 (TN) 275 
合计 520 180 700 (N) 


评价 诊断 试验 的 常用 指标 有 正确 率 、 灵 敏 度 、 特 异 度 、Youden 指数 、 阳 性 似 然 比 、 阴 
性 似 然 比 、 阳 性 预测 价值 、 阴 性 预测 价值 、 优 势 比 等 。 


12.1.1 正确 率 


ERZ 〈accuracy) 是 病例 正确 诊断 为 阳性 ， 且 对 照 正确 诊断 为 阴性 的 比例 。 正 确 率 
的 计算 公式 为 : 


Acc= IP *TN | 1099; (12-1) 
N 
其 标准 误 为 : 
SE Acc = Accx(l- Acc) (12-2) 
Y N 
Ha 95908 fa P< IRI 2: 
Acc t 1.96SE Acc (12-3) 


本 例 的 正确 率 Acc- MA x100% = 0.8357 = 83.57% ， 其 标准 误 SE,Q = 


0.8357(1 — 0.8357) 
700 
0.8632). 
首先 ， 正 确 率 很 大 程度 上 依赖 于 患 病 率 ， 如 患 病 率 为 5%， 完 全 无 价值 地 诊断 所 有 样本 
为 阴性 ,也 可 有 95% 的 正确 率 ; 其 次 ， 正 确 率 没 有 揭示 假 阴 性 和 假 阳性 错误 诊断 的 频率 ， 相 
同 的 正确 率 可 能 有 十 分 不 同 的 假 阴 性 和 假 阳性 ; 第 三 ， 正 确 率 还 受 诊 断 闻 值 的 限制 。 因 此 只 
用 该 指标 粗略 反映 诊断 试验 的 诊断 效果 ， 更 常用 的 诊断 试验 评价 指标 是 灵敏 度 、 特 异 度 等 。 


12.1.2 灵敏度 
有 灵敏度 (Sensitivity, Sen) 是 金 标准 确诊 的 真实 患者 ， 被 试验 诊断 为 阳性 的 概率 ， 也 


=0.0140 =1.40% , 95% E15 X E] X 0.8357 +1.96x0.0140, BH (0.8083, 
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称 为 真 阳 性 率 〈True Positive Rate, TPR), BH: 


Sen = P(T, ID,)=TP/(TP+ FN)= TPR (12-4) 
其 标准 误 为 : 
SEsen = Senx (l - Sen) (12-5) 
y TP + FN 
其 9590 8 fii P< [8] A : 
Sen X 1.96SEs,, (12-6) 


本 例 Sen-415/520—0.7981, 即 真 阳性 率 TPR=0.7981, 在 出 现 心肌 梗塞 的 患者 中 ,79.81% 
被 ECG 诊断 为 阳性 ， 其 标准 误 为 SEso —0.7981(1—0.7981)/520 = 0.0176 =1.76% > RK 
度 的 95958 fii € [8] 2g 0.79815:1.96x 0.0176 ， 即 (0.7636, 0.8326). 

该 指标 只 与 病例 组 有 关 ， 反 映 了 诊断 试验 检 出 病例 的 能 力 。 


12.1.3 ”特异 度 
特异 度 (Specificity，Spe)〉 是 金 标 准确 诊 的 真实 非 病 例 ， 被 试验 诊断 为 阴性 的 概率 ， 


即 ; 
Spe = P(T_| D-)=TN/(FP +TN) (12-7) 
其 标准 误 为 ; 
SEspe = |Spex Q.— Spe) (12-8) 
FP +TN 
其 95% 置 信 区 间 为 : 
Spe +1.96SEspe (12-9) 


本 例 Spe 二 170/180=0.9444， 即 未 出 现 心 肌 梗塞 的 非 病 例 中 ，95% ECG 诊断 为 阴性 。 
其 标准 误 为 SEspe = V0.9444(1 —0.9444)/180 = 0.0171=1.71% 。 特 异 度 的 95% 置 信 区 间 为 
0.9444+1.96x0.0171， 即 (0.9110, 0.9779). 

该 指标 只 与 非 病 例 组 有 关 ， 反 映 了 诊断 试验 排除 非 病 例 的 能 力 。 

由 公式 (12-4) 可 导出 漏诊 率 B =1—Sen= FN/(TP-- FN); 由 公式 (12-7) 可 导出 误 
诊 率 =1- Spe = FP/(FP+TN)， 误 诊 率 也 叫 假 阳 性 率 (False Positive Rate, FPR). 

本 例 漏 诊 率 B =1- Sen = 1 一 0.7981=0.2019; 误诊 率 w=1- Spe -1—0.9444-0.0556, B] 
假 阳性 率 FPR=0.05。 灵 敏 度 、 特 异 度 、 漏 诊 率 、 误 诊 率 之 间 的 关系 可 用 图 12-1 表示 。 此 
图 中 间 的 垂 线 与 横 轴 的 交点 称 为 诊断 界 点 (Cut-off Point)， 它 是 定义 诊断 试验 为 阳性 与 阴 
性 的 临界 点 。 

灵敏 度 与 特异 度 具 有 不 受 患 病 率 影响 的 优点 ， 所 以 称 为 固有 诊断 试验 评价 指标 。 其 取 
值 范 围 均 在 (0, D 之 间 ， 其 值 越 接近 于 1， 说 明 其 诊断 准确 性 越 好 。 当 比较 两 个 诊断 试 
验 时 ， 单 独 使 用 灵敏 度 或 特异 度 ， 可 能 出 现 一 个 诊断 试验 的 灵敏 度 高 、 特 异 度 低 ， 而 另 
一 个 诊断 试验 的 灵敏 度 低 、 特 异 度 高 ， 无 法 判断 哪 一 个 诊断 试验 更 好 。 由 此 ， 有 人 提出 
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了 将 灵敏 度 和 特异 度 结合 的 诊断 试验 评价 指标 ， 如 Youden 指数 、 阳 性 似 然 比 、 阴 性 似 然 
比 等 。 





图 12-1 灵敏度、 特异 度 、 漏 诊 率 、 误 诊 率 图 示 


12.1.4 Youden 指数 


真 阳 性 率 与 假 阳 性 率 之 差 就 是 Youden 指数 (Youden's Index)， 即 : 
J = Sen + Spe —1 = TPR — FPR (12-10) 


其 标准 误 为 : 
SE, = JTPxFN/GP+FN)3+FPxTN/CFP+TN)3 S 
= M Sen(1 — Sen) (TP + FN) + Spe(1 — Spe) (FP * TN) 
H 959, 8 8 [X [8] 28: 


J +1.96SE; (12-12) 
A| J 20.7981—0.0556 2 0.7425 ， 即 Youden 指数 为 0.7425; 其 标准 误 为 : 
SE; = V0.7981(1 — 0.7981)/520 + 0.9444(1 — 0.9444)/180 = 0.0245 


Youden 指数 的 95% Aa P< [a] Jg 0.7425 +1.96x0.0245, EH (0.6945, 0.7906). 
Youden 指数 的 取 值 范围 在 (0,10 之 间 ， 其 值 越 接近 于 +1， 诊 断 准 确 性 越 好 。 


12.1.5 ”阳性 似 然 比 
真 阳 性 率 与 假 阳 性 率 之 比 就 是 阳性 似 然 比 (Positive Likelihood Ratio, LR, )， 即 : 


LR, =TPR/ FPR = Sen/(1— Spe) (12-13) 
其 标准 误 为 : 
l— Sen Spe 
SETIR = — = (12-14) 
"m >, TP =] 
其 95% 总 体 LR, 置信 区 间 为 : 
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一 +1.96 | Sen , Spe. 
exp| n| -Se +1.96, [Sen + pe 或 9 QUUN TOF — (1245) 
1- Spe TP FP 1- Spe 


本 例 LR, —0.7981/0.0556 214.3654 ， 即 阳性 似 然 比 为 14.3654。 其 标准 误 为 : 

















SB enl Ue Jensen 
415 10 
959,6 15 Pk LR, 置信 区 间 为 : 
ev | oase ÈL% LT BÀ (7.8533.262773) 
0.0556 415 10 


LR, 的 取 值 范围 为 (0, co)， 其 值 越 大 ， 检 测 方法 证 实 疾病 的 能 力 越 强 。 


12.1.6 ”阴性 似 然 比 


假 阴 性 率 与 真 阴性 率 之 比 ， 即 漏诊 率 与 特异 度 之 比 为 阴性 似 然 比 (Negative Likelihood 
Ratio, LR ), Bp: 





LR- = (0 -TPR)/ü — FPR)- (1— Sen)/ Spe (12-16) 
其 标准 误 为 : 
Sen 1- Spe 
SETR = 2n 12- 
LR. eaf FN TN ] (12-17) 


其 95% 总 体 LR_ 置信 区 间 为 : 
— 一 - 19e, [n LSpe 
=s "|: Sen Juss EE 或 I Sen ey (4518) 
Spe TN Spe 
本 例 LR. -0.2019/0.9444 20.2138 ， 即 阴性 似 然 比 为 0.2138。 其 标准 误 为 ， 
0.7981 0.0556 


stx sof 7105 ' 170 
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95% 总 体 LR_ 置信 区 间 为 : 
ew 1— 0.7981 + 96 [07981 „ 0.0556 
9444 105 — 170 
LR 的 取 值 范围 为 (0, co)， 其 值 越 小 ， 检 测 方法 排除 疾病 的 能 力 越 好 。 
似 然 比 大 小 及 其 对 应 的 意义 ， 见 表 12-3。 





| 或 (0.1796,0.2546) 


表 12-3 似 然 比 大 小 及 其 对 应 的 意义 


LR, LR. 意义 

>10 <0.1 引起 较 大 改变 
5-10 0.1 一 0.2 引起 中 等 改变 
2 一 5 0.2—0.5 引起 较 小 改变 

<2 >0.5 引起 微弱 改变 
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12.1.7 ”阳性 预 测 价 值 


在 通常 的 情况 下 ， 当 要 做 出 诊断 时 ， 并 不 知道 金 标准 的 结果 ， 只 知道 诊断 试验 结果 是 
阳性 或 阴性 。 而 临床 医生 更 想 知 道 的 是 ， 当 诊断 试验 结果 是 阳性 时 ， 受 试 者 真正 有 病 的 概 
率 有 多 大 ; 阴性 时 又 有 多 大 把 握 排 除 此 病 。 这 就 需要 引入 阳性 预测 价值 (Positive Predictive 
Value， PV; ) 与 阴性 预测 价值 的 概念 。 

试验 结果 是 阳性 时 ， 受 试 者 实际 为 病例 的 概率 就 是 阳性 预测 价值 ， 即 : 


TP 
PV, =P(D, IT.) =——— (12-19) 
+ = P(D. IT,) IP.FP 
其 标准 误 为 : 
PV, x(1— PV.) 
SEpy, = ,| 一 于 一 一 一 一 12-20) 
"^ A TP+FP (12-20 
95% 8 fi EX PV, 1.968Epv, (12-21) 


本 例 PV, 二 415/425=0.9765， 即 试验 结果 为 阳性 者 中 ， 有 97.65% 为 心肌 梗塞 病人 。 其 
标准 误 为 :SEpy, = V0.9765(1 — 0.9765)/425 = 0.0074 = 0.7496 

PV, 总 体 的 95% 置 信 区 间 为 0.9765 土 1.96x0.0074 ， 即 (0.9621, 0.9909). 

该 指标 受 患 病 率 的 影响 较 大 ， 令 总 体 人 群 患 病 率 记 =P(D;)，P(D_)=1-P(D,)= 
l-A, WA 


PV, = P(D, IT) = ——— LDO) 0 
+ +t P(T,ID,)P(D.)+ P(T, ID )P(D.) 


_ SenP, (1— Spe — Py 
Senha- Speu-R) ) Ë Senh; J (12-22) 
HAA (12-22) TUAH, Ix Hr ts u FE 2 36 3 hF, Wn Bes de E C 
(-Spe)ü- P) . HN SenPy 的 值 ， 从 而 整个 分 母 的 值 减少 ， 阳 性 预测 价值 增加 。 
假如 人 群 患 病 率 P, =0.0005， 将 本 例 的 Sen=0.7981，Spe=0.9444， 代 入 公式 (12-22), 
得 :PV =0.0071。 由 公式 (12-20) 和 公式 (12-21) 分 别 计算 标准 误 为 0.0041, 9595848 
区 间 为 -0.0009, 0.0151)。 即 采用 ECG 诊断 整个 人 群 时 ， 在 约 10000 例 阳性 结果 的 受 试 
者 中 ， 仅 有 71 例 为 心肌 梗塞 患者 。 此 结果 表明 ECG 在 该 患 病 率 下 ， 阳 性 预测 价值 不 高 。 
如 果 患 病 率 扩大 为 P, =0.2， 则 可 获得 PV, = 0.7822 = 78.22% ， 标 准 误 为 2.00%，95% 置 信 
KIA (0.7430, 0.8214)。 此 时 阳性 预测 价值 大 大 提高 。 


12.1.8 ”阴性 预测 价值 


当 诊 断 试 验 结果 是 阴性 时 ， 受 试 者 实际 为 非 病 例 的 概率 就 是 阴性 预测 价值 (Negative 
Predictive Value, PV ), B; 
PV -P(D. iT)= TN _ (12-23) 
TN + FN 
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SEpy = PV-x(1— PV-) (12-24) 
V TN+FN 


PV. +1.96SEpv. (12-25) 
本 例 PV_ =170/275=0.6182， 其 标准 误 为 0.0293，95% 置 信 区 间 为 〈0.5608, 0.6756). 
同样 , 该 指标 受 患 病 率 的 影响 较 大 , SEARRE P = P(D,) , P(D_)=1—- P(D.)= 

1 一 P , 则 有 


其 标准 误 为 : 


其 95% 置 信 区 间 为 : 


P(T-ID_)P(D ) 
P(T.1D )P(D )- P(T-1D,)P(D,) 


_ Spel- P) gig d (1226 
Spell- R) + (I — Sen) Po Spel- Rb) 
AX 0226) 符号 含义 与 公式 〈12-22) 相同 。 当 灵敏 度 与 特异 度 为 常数 时 ， 增 加 患 病 率 
将 降低 阴性 预测 价值 。 
X R =0.0005, ÆR Sen=0.7981，Spe=0.9444， 代 入 公式 〈12-26)， 得 ， 


py =1/| ia (1—0.7981)x0.0005 |. 0.9999 
0.9444 x (1 — 0.0005) 


由 公式 (12-24) 和 公式 (12-25) 分 别 计算 标准 误 为 0.0006，95% 置 信 区 间 为 〈0.9987， 
1.0000). BN% 10000 例 阴 性 诊断 试验 结果 的 受 试 者 中 ， 有 9987 例 未 出 现 心肌 梗塞 ， 但 
有 13 例 出 现 心肌 梗塞 说明 ECG 在 该 患 病 率 下 的 阴性 预测 价值 较 高 。 如 果 患 病 率 扩大 为 
P =0.2， 则 可 获得 PV =0.9493 = 94.93% ， 此 时 阴性 预测 价值 降低 不 明显 。 

PV, 和 PV. 的 取 值 范 围 在 〈0, 1) 之 间 ; 对 于 相同 的 患 病 率 ， 其 值 越 接近 1， 检 测 方法 
的 诊断 价值 越 高 。 


12.1.9 优势 比 及 其 有 关 指 标 


优势 (Odds) 为 两 互 斥 概率 之 比 。 
(1) 先 验 优势 (Pre-test Odds) 


PY = P(D_IT.)= 





先 验 优势 = 先 验 概率 /(1- 先 验 概 率 ) (12-27) 
这 里 ， 先 验 概 率 为 : 
T+ (12-28) 
TP + FN +FP+TN 


本 例 的 先 验 概率 为 0.7429， 先 验 优势 为 2.8889。 
(2) 后 验 优 势 (Post-test Odds) 
后 验 优势 = 先 验 优势 x 似 然 比 (12-29) 
本 例 的 后 验 优势 二 2.8889x14.3654 二 41.5000。 
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(3) 后 验 概率 


后 验 概率 三 后 验 优势 /(1+ 后 验 优势 ) (12-30) 
本 例 的 后 验 概率 一 41.$0009/(1+41.5000)=0.9765， 这 正好 是 公式 (12-190 所 计算 出 来 的 阳 
性 预测 价值 。 


通过 直观 查阅 图 12-2， 可 直接 由 先 验 概 率 和 似 然 比 近似 获得 后 验 概 率 。 
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先 验 、 后 验 
概率 (%) 似 然 比 概率 (0 
图 12-2 由 先 验 概率 和 似 然 比 获 得 后 验 概率 


(4) 优势 比 


RAE (Odds Ratio, OR) 反映 了 与 非 病 人 相 比 ， 病 人 的 阳性 优势 大 小 。 
_ Sen/(1— Sen) TPxTN LR, 








= = = (12-31) 

(1-Spe/Spe) FPxFN LR. 
其 标准 误 为 : 

SEoRr = exp Bl l l 1 (12-32) 
TP FP TN FN 
其 95908 fii P< [83] 29: 
1 1 1 1 
ORxe 964 TP FP IN FN (12-33) 


如 果 四 格 表 有 0 格子 ， 则 无 法 计算 优势 比 ， 这 种 情况 下 可 将 每 一 格子 频数 加 0.5。 
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根据 上 述 公 式 ， 本 例 优 势 比 为 67.1905， 其 标准 误 为 1.4095，95% 置 信 区 间 为 
(34.2873, 131.6686)。 表 明 出 现 心肌 梗塞 者 的 ECG 诊断 结果 阳性 优势 是 不 出 现 心肌 梗 
塞 的 67 fi. 


12.1.10 Kappa 


Kappa 统计 量 用 于 检查 两 次 及 以 上 观测 的 一 致 性 程度 。 在 金 标准 不 金 的 无 奈 情 况 
下 ， 用 该 指标 检验 两 个 诊断 试验 结果 是 否 一 致 。Kappa 值 的 理论 取 值 在 0—1 范围 内 ， 
Kappa 值 为 0 一 0.4 时 说 明 一 致 性 程度 不 理想 ，Kappa 值 大 于 等 于 0.75 时 说 明 具 有 较 好 
的 一 致 性 。 








Kappa 值 计 算 公 式 为 : 
对 角 实 际 观测 一 致 数 之 和 _ 对 角 理 论 期 望 一 致 数 之 和 
om 全， 的 有 本 -有 (12-34) 
总 例 数 
其 标准 误 为 


SE ee zi 2,RC +C) Te (12-35) 
Kappa 一 pr + pi- x 
(1- py )NN N° 


AP, ps, pz 分 别 表示 实际 观察 一 致 率 和 理论 期 望 一 致 率 ，N 为 总 例 数 ，R; ，C; 分别 为 第 i 
类 别 的 行 、 列 合计 。 

Kappa 总 体 值 95% 置 信 区 间 为 : 

Kappa +1.96SEkappa (12-36) 

本 例 中 Kappa=0.6333, 其 标准 误 为 0.0360, Kappa 总 体 值 95% 置 信 区 间 为 (0.5627, 0.7039)。 
但 必须 注意 Kappa 只 能 反映 诊断 结果 是 否 一 致 ， 而 不 一 定 能 反映 诊断 结果 是 否 准 确 。 

. 诊断 试验 评价 指标 计算 的 操作 提示 

ma 可 采用 SPSS 的 有 关 函 数 计算 ， 为 了 方便 用 户 ， 我 们 用 Excel 编制 
了 一 个 简单 的 计算 程序 (diatest.xls)， 只 要 将 诊断 试验 的 每 个 四 格 表 数据 输入 到 该 文件 中 ， 
便 可 获得 以 上 所 有 计算 结果 。 此 外 ， 也 可 采用 SPSS 操作 ， 如 下 所 示 。 

(1) Weight Cases 过 程 


Data 
“Weight Cases... 
Weight Cases by| | Frequency Variable:freq 


(2) Crosstabs 过 程 (如 图 12-3 所 示 ) 


Analyze 
Descriptive statistic 
“ÜCrosstabs... 
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2. 输出 结果 

为 了 得 到 灵敏 度 、 特 异 度 、 阳 性 预测 价值 、 阴 性 预测 价值 等 指标 ， 可 在 如 图 12-3 所 示 
的 Crosstabs 对 话 框 中 〈 详 细 说 明 见 第 6 章 )， 单 击 Cells 按钮 ， 选 择 Percentages 中 的 ROW 
和 Column， 主 要 结果 见 结果 12-1. 










[^ Display clustered bar charts 


[^ Suppress tables 
Exact... | Statstics ,| Cells... | Eoma... | 


图 12-3  Crosstabs 对 话 框 









ECG * Disease Crosstabulation 
oae — | ua | 
D d | 2 | Tota 
415 10 425 











96 within ECG 
96 within Disease 


97.696 2.496 100.096 
79.896 5.696 60.796 
105 170 275 

96 within ECG 38.2% 61.8% 100.0% 
% within Disease 20.2% 94.4% 39.3% 
Total Count 520 180 700 
% within ECG 74.3% 25.7% 100.0% 

% within Disease 100.0% 100.0% 100.0% 












结果 12-1 灵敏度、 特异 度 等 指标 


在 结果 12-1 rB, %within Disease 给 出 了 灵敏 度 (79.8%), EIER 〈5.6% )、 假 阴性 
Z (20.2%)、 特 异 度 (94.495) 结果 ; %within ECG 给 出 了 阳性 预测 价值 (97.6%) 和 阴性 
预测 价值 (61.8%). 

为 了 得 到 Kappa 值 ， 可 在 如 图 12-3 所 示 的 Crosstabs 对 话 框 中 ， 单 击 Statistics 按钮 ， 
选择 Kappa 复 选 框 ， 主 要 结果 见 结果 12-2。 

在 结果 12-2 中 ， 得 到 Kappa 值 为 0.633， 相 应 的 标准 误 为 0.030“〈 与 公式 计算 略 有 不 
同 ， 建 议 以 软件 输出 为 准 )。 
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— Measures 


Em 
Measure — Agreement Kappa .633 T 581 
N of Valid Cases 700 


a. Not assuming the null hypothesis. 






b. Using the asymptotic standard error assuming the null hypothesis. 


结果 12-20 Kappa 相关 结果 


12.2 ROC 曲线 


尽管 前 面 所 列 的 Youden A BH (EB) 性 似 然 比 、 阳 《 阴 ) 性 预测 值 、 优 势 比 等 指 
标 综合 利用 了 灵敏 度 与 特异 度 的 信息 , 但 这 些 指标 都 与 诊断 临界 值 CER RIED 的 选取 有 关 。 
例如 ， 同 一 项 检测 方法 ， 采 用 不 同 的 诊断 临界 值 就 有 不 同 的 灵敏 度 与 特异 度 。 为 了 更 全 面 
地 评价 检测 方法 的 诊断 价值 ， 必 须 考 虑 各 种 可 能 的 诊断 临界 值 。 

ROC 曲线 (ROC Curve) 是 接收 者 工作 特征 〈Receiver Operating Characteristic, 简称 
ROC) 曲线 或 相对 工作 特征 (Relative Operating Characteristic) 曲线 的 缩写 。ROC 分 析 于 
20 世纪 50 年 代 起 源 于 统计 决策 理论 ， 后 来 应 用 于 雷达 信和 号 接收 能 力 的 评价 ; 自从 80 年 代 
起 ， 该 方法 广泛 应 用 于 医学 诊断 试验 性 能 的 评价 。 通 过 改变 诊断 临界 值 ， 获 得 多 对 灵敏 度 
与 特异 度 值 ， 以 灵敏 度 为 横 坐 标 ，(1- 特 异 度 ) 为 纵 坐 标 ， 绘 制 ROC 曲线 ， 计 算 与 比较 
ROC 曲线 下 面积 ， 以 此 反映 诊断 试验 的 诊断 价值 。 


12.2.1 ROC 分 析 的 基本 原理 


ROC 分 析 资 料 可 大 致 分 为 连续 型 资料 与 有 序 分 类 资料 两 种 形式 .连续 型 资料 常见 于 某 
些 定量 检验 ， 有 序 分 类 资料 多 见于 医学 影像 诊断 和 心理 学 评价 。 

CA 例 12-2 | 假设 菜 诊断 试验 的 病例 组 和 对 照 组 分 别 有 5 个 和 4 个 受 试 者 ， 其 检测 
结果 见 表 12-4。 试 计算 所 有 可 能 的 TPR 和 FPR 值 (显然 ， 样 本 量 太 少 ， 这 里 只 是 为 了 便 
于 叙述 )。 


表 12-4 ”假想 的 连续 性 资料 


金 标 准 检测 结果 
病例 组 16.5 13.5 12.8 11.2 5.0 
对 照 组 8.5 6.4 4.6 1.7 


将 这 9 个 数据 从 大 到 小 排列 ， 将 前 8 个 数 〈 不 考虑 最 小 值 1.7) 分 别 作为 诊断 临界 值 ， 
大 于 等 于 诊断 临界 值 者 判 为 阳性 ， 小 于 该 值 者 判 为 阴性 。 这 样 ， 可 整理 成 8 个 四 格 表 : 
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与 统 i 


分 


诊断 临界 值 =16.5 





诊断 临界 值 =13.5 


诊断 临界 值 =12.8 


诊断 临界 值 =11.2 








诊断 金 标 准 诊断 金 标 准 诊断 金 标 准 诊断 金 标准 

结果 ”病例 “对照 结果 ”病例 对照 结果 ”病例 ”对照 结果 病例 HR 
+ 1 0 + 2 0 + 3 0 + 4 0 
一 4 4 3 4 一 2 4 一 1 4 

诊断 临界 值 =8.5 诊断 临界 值 =6.4 诊断 临界 值 =5.0 诊断 临界 值 =4.6 

结果 ”病例 HM 结果 ”病例 HR £ 病例 HR £ 病例 DEL 
+ 4 1 + 4 2 + 5 2 + 5 3 


_ 1 3 _ 1 2 _ 0 2 _ 0 1 


每 个 四 格 表 可 计算 一 对 (灵敏 度 , 1- 特 异 度 )， 称 为 ROC 曲线 工作 点 〈 见 表 12-5), dn 
果 有 多 个 检测 结果 相同 ， 则 只 保留 一 个 值 作为 诊断 临界 值 。 由 表 12-5 中 的 数据 ， 便 可 以 以 
(1- 特 异 度 ) 为 模 轴 ， 灵 敏 度 为 纵 轴 绘制 出 ROC 曲线 。 


表 12-5 表 12-4 中 资料 不 同 诊断 临界 值 的 灵敏 度 与 《1- 特 异 度 ) 值 





诊断 临界 值 
16.5 13.5 12.8 11.2 8.5 6.4 5.0 4.6 
LRR 0 0 0 0 1/4 2/4 2/4 3⁄4 
灵敏 度 1/5 2/5 3/5 4/5 4/5 4/5 5/5 5/5 





ROC 曲线 下 面积 〈 记 为 4z ) 可 反映 诊断 试验 的 价值 大 小 。 这 一 指标 取 值 范围 为 0.5 一 
1， 完 全 无 价值 的 诊断 为 4z =0.5; 完全 理想 的 诊断 为 4z=1。 一 般 认为 ，4z 在 0.50—0.70 
之 间 ， 表 示 诊 断 价值 较 低 ;在 0.70 一 0.90 之 间 ， 表 示 诊 断 价 值 中 等 ，0.90 以 上 表示 诊断 价 
值 较 高 (Swets, 1988). Az 及 其 标准 误 的 计算 方法 主要 有 双 正 态 模型 参数 法 、Hanley 和 
McNeil 非 参数 法 、Delong,Delong 和 Clarke-Pearson 非 参 数 法 等 ，SPSS 所 采用 的 面积 计算 
方法 就 是 非 参数 法 (Hanley and McNeil, 1982;1983 )。 

假设 异常 组 有 n PAR, WH xa G=1, 2, na); 正常 组 有 闸 个 观察 值 ， 记 为 各， 
(二 1,2,…,nn); 观察 值 较 大 为 异常 。 可 以 证 明 ，ROC 曲线 下 面积 C Az ) 就 是 异常 组 观察 值 
大 于 正常 组 观察 值 的 概率 ， 用 公式 表示 为 


Az =— V Y yu xs) 





(12-37) 
Hafn j=l i=l 
其 中 
1, Xa; > Xn, 
V (Xa; , Xn; ) = š 0.5, Xa, = Xn; 
0, Xa, < Xn; 
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公式 (12-37) 的 意思 是 : 异常 组 的 某 个 x, 与 正常 组 的 某 个 六 比较， 如 果 前 者 大 于 后 
者 则 得 分 为 1， 如 果 相 等 则 得 分 为 0.5， 否 则 得 分 为 0， 将 naxn 次 比较 的 得 分 相 加 ， 取 平 
均 即 得 A; (如 果 观 察 值 较 小 为 异常 ， 则 改变 公式 中 的 大 于 与 小 于 符号 即 可 )。 

Az 的 标准 误 SEA, 可 采用 公式 


2 2 
sz, = [Ac A) (na -DOi - A) + my -Oa — A) (12:38) 
nan, 


计算 。 其 中 ，G@ 是 两 个 随机 选择 的 异常 组 观察 值 比 一 个 随机 选择 的 正常 组 观察 值 都 有 更 大 
可 能 被 判 为 异常 的 概率 。 Q, 是 一 个 随机 选择 的 异常 组 观察 值 比 两 个 随机 选择 的 正常 组 观 
察 值 都 有 更 大 可 能 被 判 为 异常 的 概率 。 

SPSS 提供 了 两 种 计算 Q 和 Q, 的 方法 ， 一 种 是 非 参数 法 〈 公 式 较 复 杂 ， 在 此 省 略 )， 
另 一 种 是 双 负 指数 法 (Bi-negative Exponential Method), HARA: 








_ A, _ 2A2 
aa OTTA 
其 95% 和 置信 区 间 为 : 
A; t 1.96SEA, (12-39) 


得 出 的 ROC 曲线 下 面积 是 否 与 从 原点 到 右上 角 的 那 条 机 会 线 下 面积 (0.50 有 统计 学 


差异 ， 可 检验 H: Az=0.5, 统计 量 为 标准 正 态 离 差 z= 16 0, 
Az 


12.2.3 SPSS 操作 说 明 


下 面 采用 不 同 数据 格式 的 实例 ， 阐 述 SPSS 实现 ROC 分 析 的 方法 。 

采用 骨髓 诊断 作为 金 标准 , 对 100 例 患 者 进行 诊断 ， 其 中 34 例 确 诊 为 
ERER CERA) HR 66 例 确诊 为 非 缺 铁 性 贫血 (正常 组 )。 事 先 测 得 每 个 患者 的 
红细胞 平均 容积 (MCYV ) 见 表 12-6( 见 配 书 光盘 中 的 数据 文件 data12-2.xls 或 data12-2.sav)， 
试 采 用 ROC 分 析 评 价 MCV 诊断 缺 铁 性 贫血 的 能 力 。 


表 12-6 ”红细胞 平均 容积 MCV 结果 





Hii MCV 结果 
52 58 62 65 67 68 69 71 72 72 B 73 74 375 76 m m 
异常 组 
78 79 80 80 81 81 81 82 83 84 85 85 86 88 88 90 9 
@ 06 G © n 1 B NH A4 7 ^6 n 7 m m 75S mS 
EXA 7 7 9 @ 8 S8 S8 QR Q 3 GG 89 S9 $83 898 B8 #4 
"T 
84 8 S S8 8 S S 86 8I 9 
9 9 92 9 9 9 9 93 94 99 95 9 9 10 103 


ik: 资料 来 自 下 Beck, EK Shultz, Arch Pathol Lab Med, 1986 
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将 表 12-6 中 数据 排 成 两 列 ， 一 列 为 “MCYV 结果 ”， 男 一 列 为 “骨髓 诊断 ”0 二 正常 
组 ， 1 二 异常 组 。 


* ROC 分 析 操 作 提 示 





“©Graphs 
ROC Curves... 
弹出 的 ROC 曲线 对 话 框 见 图 12-4。 
EL di 
Test Variable: | 
| LS "x | 
| | Bee 
| State Variable: Cancel | | 
| CI [emm He | | 
| Value of State Variable: [1 
| Display | 
Iv ROC Curve | 
IV With diagonal reference line | 
f Standard error and confidence interval | 
v io uvg Options.. | | 
图 12-4 ROC 曲线 对 话 框 
> 操作 选项 说 明 
-mcyv 4 RP] Test Variable 一 定义 试验 结果 变量 
od P] State Variable 一 定义 金 标准 分 组 变量 ， 即 状态 变量 


在 Value of State Variable 右 侧 的 空白 框 处 填写 金 标准 分 组 为 “病例 ”代码 。 本 例 以 “17 
表示 缺 铁 性 贫血 ,“0” 表 示 非 缺 铁 性 贫血 ， 所 以 填 “17”。 


> 操作 选项 说 明 
ROC Curve 一 要 求 输出 ROC 曲线 图 
With diagonal reference line 全 要 求 输出 的 ROC 曲线 图 带 有 对 角 参 考 线 
JBStandard error and confidence interval TAK i# ROC 曲线 下 面积 对 应 的 标准 误 


和 置信 区 间 
Coordinate points of the ROC Curve 一 输出 ROC 曲线 的 坐标 点 


单 击 图 12-4 右 下 角 的 Options… 按 钮 ， 弹 出 的 ROC 曲线 选项 对 话 框 见 图 12-5. 
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ROC Curve: Options xi 





C Exclude cutoff value for positive classification 


"t 


H 
Test Direction 
(* Larger test result indicates more positive test 
C Smaller test result indicates more positive test 


Parameters for Standard Error of Area 

Distribution assumption: [Nonparametric 了 
Confidence level: [35 x 

Missing Values 

@ Exclude both user-missing and system missing values 
C User-missing values are treated as valid 





图 12-5 ROC 曲线 选项 对 话 框 





> 操作 选项 说 明 
Classification: 分 类 原则 
Include cutoff value for positive classification 一 阳性 分 类 时 包括 诊断 临界 值 
(RA) 
Exclude cutoff value for positive classification 一 阳性 分 类 时 不 包括 诊断 临界 值 
Test Direction: 试验 方向 


Larger test result indicates more positive test 号 更 大 值 归 类 为 阳性 (默认) 
Smaller test result indicates more positive test 一 更 小 值 归 类 为 阳性 
Parameters for Standard Error of Area: 面积 标准 误 的 计算 方法 

Distribution assumption:Nonparametric 一 非 参数 法 

Distribution assumption:Bi-negative exponential = fü 43838 

Confidence level: 一 自 定 义 置信 度 〈 软 认为 95% ) 


Missing Values: 缺失 值 

Exclude both user-missing and system missing = 包括 用 户 缺 失 值 和 系统 缺失 
values 值 

-User-missing values are treated as valid = 用 户 缺 失 值 有 效 


1223 ”实例 与 结果 解释 


为 了 详细 说 明 ROC 分 析 的 应 用 ， 下 面 列举 4 个 不 同 的 例子 。 
1. 简单 连续 型 数据 
打开 例 12-3 的 数据 ( 见 配 书 光盘 中 的 数据 文件 datal2-2.sav 和 datal2-2.xls)， 单 击 
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Graphs 一 ROC Curves..., ŒE ROC 曲线 对 话 框 中 选择 “mev 结果 ”作为 Test Variable;“ 骨 
髓 诊断 ”作为 State Variable; 在 Value of State Variable 右 侧 的 空白 框 处 填写 “12” 选取 所 
有 的 Display 选项 。 单 击 Options 按钮 ， 修 改 Test Direction 的 默认 选项 ， 选 择 “Smaller test 
result indicates more positive test”。 改变 默认 选项 的 原因 是 :“mev 结果 ” 值 越 小 , 越 有 可 能 
诊断 为 阳性 〈 这 恰好 与 一 般 的 情况 相反 )。 单 击 Continue 按钮 ， 再 单 击 OK 按钮 ， 得 到 结 
果 12-3。 


Case Processing Summary 


aman | 222 | 
rfi listwise 





Positive? 
Negative 
Smalier values of the test result variable(s) indicate 


stronger evidence for a positive actual state. 
a. The positive actual state is 1. 


结果 12-3 ”数据 的 基本 信息 


该 结果 指出 了 金 标准 每 一 分 类 的 频数 , 如 结果 12-3 说 明 金 标准 为 缺 铁 性 贫血 阳性 者 有 
34 例 ， 阴 性 者 有 66 例 ， 值 越 小 ， 越 有 可 能 诊断 为 阳性 ， 指 示 阳 性 的 代码 为 “1”。 

结果 12-4 给 出 了 以 〈1- 特 异 度 ) 为 横 轴 ， 灵 敏 度 为 纵 轴 绘 制 的 ROC 曲线 ， 左 下 至 右 
上 的 对 角 线 为 机 会 参考 线 。 


ROC Curve 

10 

08 
g 06 
2 
= 
D] 
Š 
d) 04 

02 

0.0 

00 02 04 056 08 10 
1 - Specificity 


Diagonal segments are produced by ties. 


结果 12-4 ROC 曲线 


由 结果 12-5 nJ Al, ROC 曲线 下 面积 为 0.717， 表 示 诊 断 试 验 的 诊断 准确 度 中 等 。 相 应 
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的 标准 误 为 0.053, P-0.000, 95998 ë P< [BJ (0.614, 0.820)。 


Area Under the Curve 
Test Result Variable(s): mcv 结 果 


Asymptotic 95% Confidence 
Asymptotic Interval 
Area Std. Erro Sig. 


The test result variable(s). mcv 结 果 has at least one tie between the 
positive actual state group and the negative actual state group. Statistics 
may be biased. 


8. Under the nonparametric assumption 










b. Null hypothesis: true area = 0.5 


结果 12-5 ROC 曲线 下 面积 等 有 关 指 标 


结果 12-6 显示 了 不 同 诊断 临界 值 对 应 的 (灵敏 度 ，1- 特 异 度 ) 对 子 ， 这 些 实际 上 是 

绘制 ROC 曲线 图 的 坐标 点 。SPSS 的 诊断 临界 值 不 是 诊断 试验 的 原始 数据 ， 最 小 诊断 临界 

值 为 《最 小 观察 试验 值 -1)， 最 大 诊断 临界 值 为 《最 大 观察 试验 值 +1)， 其 他 诊断 临界 值 为 

相 邻 观察 试验 值 的 平均 值 。 诊 断 临 界 值 个 数 为 〈 不 同 试验 结果 值 个 数 +1)。 相 同 试验 结 
果 值 只 有 一 个 诊断 临界 值 。 


Coordinates of the Curve Test Result Variable(s): mcv 结果 


Positive if Less 
Than or Equal To* Sensitivity 1 - Specificity 






The test result variable(s): mev 结果 has at least one tie between the positive actual state group and the negative actual state group. 
à The smallest cutoff value is the minimum observed test value minus 1, and the largest cutoff value is the maximum observed test 


value plus 1. All the other cutoff values are the averages of two consecutive ordered observed test values. 


结果 12-6 ROC 曲线 下 面积 等 有 关 指标 


简单 有 序 分 类 数据 
EX soa] 有 1094 CT 影像 ， 其 中 有 51 份 采用 金 标准 确诊 为 异常 ，58 份 确诊 为 
正常 。 某 放射 医生 对 这 些 CT 影像 的 异常 程度 按 1, 2, 3, 4, 5 的 顺序 进行 分 类 , 结果 见 表 12-7。 
试 回答 该 放射 医生 利用 CT 影像 诊断 疾病 的 能 力 。 
解 : SPSS 数据 格式 见 图 12-6， 即 将 有 序 诊 断 分 类 当成 试验 结果 变量 (Test Variable), 
组 别 为 金 标准 (1 二 异常 ，0 二 正常 )， 不 同 疾病 状态 下 每 一 诊断 分 类 的 频数 作为 第 三 列 变 


== 
里 。 
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表 12-7. 109 份 CT 影像 分 类 结果 





诊断 分 类 
金 标准 合 计 
1 2 3 4 5 
异常 3 2 2 11 33 51 
正常 33 6 6 11 2 58 
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图 12-6 有 序 分 类 资料 的 SPSS 数据 格式 


打开 例 12-4 的 数据 〔( 见 文件 datal2-3.xls 或 datal2-3.sav)， 因 为 是 频数 表 数 据 ， 必 须 
事先 告诉 计算 机 哪 一 个 变量 是 频数 。 具 体操 作为 ， 单 击 Data —- Weight Cases.... #E Weight 
Cases... 对 话 框 中 选择 “Weight Cases by”， 将 “频数 ” 选 入 Frequency Variable 下 方 的 空白 
EA. 然后 单 击 Graphs— ROC Curves..., 在 ROC 曲线 对 话 框 中 选择 “诊断 分 类 ”作为 Test 
Variable;“ 组 别 ” 作 为 State Variable; 在 Value of State Variable 右 侧 的 空白 框 处 填写 “1”; 
选取 所 有 的 Display 选项 。 单 击 OK 按钮 ， 得 到 结果 12-7。 

Case Processi 
Valid N (listwise) 





g Summa 








诊断 分 类 Unweighted Weighted 


Positive? 5 51 
Negative 5 58 


Larger values of the test result variable(s) indicate stronger evidence for a positive actual state. 


a. The positive actual state is 1. 


结果 12-7 数据 的 基本 信息 


结果 12-7 指出 了 金 标准 每 一 分 类 的 未 加 权 (unweighted， 指 分 类 个 数 ) 与 加 权 
(weighted〉 频 数 ， 如 结果 12-7 说 明 金 标准 为 阳性 者 有 51 例 ， 阴 性 者 有 58 例 ， 值 越 大 ， 
越 有 可 能 诊断 为 阳性 ;指示 阳性 的 代码 为 “1”。 

结果 12-8 给 出 了 以 〈1- 特 蜡 度 ) 为 模 轴 ， 灵 敏 度 为 纵 轴 绘制 的 ROC 曲线 ， 左 下 至 右 
上 的 对 角 线 为 机 会 参考 线 。 

由 结果 12-9 可 知 ，ROC 曲线 下 面积 为 0.893， 表 示 诊 断 试验 的 诊断 准确 度 较 好 。 相 应 
的 标准 误 为 0.032，P=0.000，95% 置 信 区 间 为 0.830, 0.956). 
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ROC Curve 
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Sensitivity 
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1 - Specificity 


Diagonal segments are produced by ties 


结果 12-8 ROC 曲线 


Area Under the Curve 
Test Result Variable(s): 诊断 分 类 


Asymptotic 95% Confidence 

Asymptotic Interval 
Area — |Std Ero | ^ Sig. 
| — 893 | — 032 j .000| 80| — 956 | 


The test result variable(s): 诊断 分 类 has at least one tie between the 
positive actual state group and the negative actual state group. Statistics 
may be biased. 


a. Under the nonparametric assumption 










b. Null hypothesis: true area = 0.5 


结果 12-9 ROC 曲线 下 面积 等 有 关 指 标 


结果 12-10 显示 了 不 同 诊断 临界 值 对 应 的 〈 灵 敏 度 ，1- 特 异 度 ) 对 子 。 最 小 诊断 临界 
值 为 (最 小 观察 试验 值 一 1 )， 最 大 诊断 临界 值 为 (最 大 观察 试验 值 +1)， 其 他 诊断 临界 值 
为 两 相 邻 观察 试验 值 的 平均 值 。 诊 断 临界 值 个 数 为 (不 同 试验 结果 值 个 数 +1)， 本 例 为 6。 


Coordinates of the Curve 


Positive if Greater 
Than or Equal To(a) 








Test Result Variable(s): 诊断 分 类 


Sensitivity 1 - Specificity 





结果 12-10 ROC 曲线 下 面积 等 有 关 指 标 
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结果 释疑 : 

因为 是 频数 表 数 据 ， 所 以 必须 通过 “Data 一 Weight Cases...” 进 行 加 权 。 

3. 多 组 连续 型 数据 

有 研究 表明 : 经 AgNOR 染色 的 胃 核 仁 组 织 较 大 颗粒 数目 与 疾病 的 癌 
变 有 关 。 某 研究 者 对 确诊 为 未 癌变 异型 增生 的 30 例 和 癌变 的 33 例 病 人 胃 组 织 , 经 AgNOR 
染色 制 成 切片 ， 每 个 患者 观察 100 个 细胞 核 ， 清 点 核 仁 的 大 颗粒 与 中 颗粒 数目 ， 其 结果 见 
dx 12-8( 见 配 书 光 盘 中 的 数据 文件 data12-4.xls 或 data12-4.sav， 资料 来 源 于 李 康 博士 论文 ， 
哈尔滨 医科 大 学 ，1999，p44)。 问 两 种 颗粒 诊断 是 否 癌变 的 准确 度 是 否 不 同 ? 


表 12-8 “未 癌变 组 ”与 “癌变 组 ”每 100 个 细胞 核 的 平均 颗粒 数 


未 癌变 组 癌变 组 
编号 ”大 颗粒 数目 中 颗粒 数目 编号 ”大 颗粒 数目 ”中 颗粒 数目 
1 24 213 31 7 104 
2 53 330 32 21 82 
3 50 131 33 8 128 
4 22 238 34 15 83 
5 25 125 35 11 118 
6 33 180 36 11 120 
7 42 164 37 9 112 
8 29 144 38 9 88 
9 30 154 39 15 117 
10 27 149 40 15 93 
11 49 193 41 28 89 
12 36 182 42 19 102 
13 34 146 43 28 30 
14 78 84 44 14 110 
15 40 165 45 37 113 
16 49 139 46 16 126 
17 32 126 47 8 110 
18 28 167 48 5 118 
19 14 144 49 14 114 
20 50 175 50 33 95 
21 72 102 51 35 83 
22 50 92 52 9 92 
23 68 190 53 67 90 
24 92 103 54 37 104 
25 39 132 55 29 107 
26 27 126 56 16 108 
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续 表 
未 癌变 组 癌变 组 
编号 ”大 颗粒 数目 中 颗粒 数目 编号 — 大 颗粒 数目 。 中 颗粒 数目 
27 40 149 57 25 99 
28 62 247 58 22 60 
29 37 113 59 43 67 
30 71 199 60 50 54 
61 63 63 
62 42 68 
63 26 128 





将 表 12-8 数据 整理 成 图 12-7 格式 ， 单 击 Graphs 一 ROC Curves..., ZE ROC 曲线 对 话 
框 中 同时 选择 “大 颗粒 数目 ”和 “中 颗粒 数 
目 ” 作 为 Test Variable;“ 分 组 ”作为 State 
Variable; 在 Value of State Variable 右 侧 的 空 
白 框 处 填写 “1?”; 选取 所 有 的 Display 选项 。 
单 击 Options 按钮 , 修改 Test Direction 的 默认 = I B SL 31 . 
选项 ， 选 择 “Smaller test result indicates more diim Resim 11. + 
positive test”, 改变 默认 选项 的 原因 是 :“ 大 或 kunka ls 
中 颗粒 数目 ” 值 越 小 ， 越 有 可 能 诊断 为 阳性 〈 这 恰好 与 一 般 的 情况 相反 )。 单 击 Continue 
按钮 ， 再 单 击 OK 按钮 ， 得 到 如 下 主要 结果 。 

结果 12-11 直观 给 出 了 大 颗粒 数目 与 中 颗粒 数目 的 ROC 曲线 。 





0 
0 
0 
可 
1 
1 
1 





ROC Curve 





Source of the Curve 


一 一 大 颗粒 数目 
一 一 中 颗粒 数目 


Reference Line 


Sensitivity 





0.0 0.2 0.4 0.6 0.8 1.0 
1-Specificity 
Diagonal segments are produced by ties 


结果 12-11 ROC 曲线 


结果 12-12 分 别 给 出 了 大 、 中 颗粒 数目 对 应 的 ROC 曲线 下 面积 分 别 为 0.804. 0.906 
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(检验 P=0.000, 表示 与 0.5 相 比 , 两 个 面积 均 有 统计 学 意义 ); 95% 置 信 区 间 分 别 为 (0.696， 
0.912)、(0.827, 0.984)。 因 为 以 上 这 两 个 置信 区 间 有 重 登 ， 所 以 两 个 曲线 下 面积 间 的 差异 
无 统计 学 意义 。 

结果 释疑 : 

第 一 ,， 以 上 只 列 出 了 两 个 诊断 试验 , 实际 上 SPSS 也 可 采用 两 个 以 上 的 多 个 诊断 试验 。 
第 二 ， 可 采用 95% 和 置信 区 间 是 否 有 重合 来 简单 判断 两 两 诊断 试验 之 间 是 否 有 差异 。 第 三 ， 
这 里 比较 诊断 试验 的 前 提 条 件 是 : 假定 两 两 诊断 试验 之 闻 相 互 独立 。 第 四 ， 因 为 “大 或 中 
颗粒 数目 ” 值 越 小 ， 越 有 可 能 诊断 为 阳性 ， 所 以 改变 了 Options 选项 中 的 试验 方向 。 





Area Under the Curve 


Asymptotic 95% Confidence 
Test Result Std. Asymptotic Interval 
Variable(s) Area Error" Sig” Lower Bound | Upper Bound 
大 颗粒 数目 .804 .055 .000 .696 .912 
The test result variable(s): 大 笑 粒 数目 , 中 颗粒 数目 has at least one tie between the positive actual state 
group and the negative actual state group. Statistics may be biased. 












a. Under the nonparametric assumption 
b. Null hypothesis: true area = 0.5 


结果 12-12 ROC 曲线 下 面积 


4. 多 组 有 序 分 类 数据 

表 12-9 ( 见 配 书 光盘 中 的 数据 文件 data12-5.xls 或 data12-5.sav， 资 料 摘 
Ë JA Hanley, BJ McNeil. Radiology 1983; 148: 839-843) 左 侧 是 两 种 诊断 方法 对 正常 组 58 例 分 类 的 
数据 , 右 侧 是 两 种 诊断 方法 对 异常 组 54 例 分 类 的 数据 , 分 类 等 级 1 一 6 分 别 表示 肯定 正常 、 
可 能 正常 、 正 常 可 疑 、 异 常 可 疑 、 可 能 异常 和 肯定 异常 。 试 比较 诊断 方法 1 与 诊断 方法 2 
间 诊 断 准确 度 差异 是 否 有 统计 学 意义 。 


表 12-9 相同 研究 对 象 由 两 种 不 同 诊断 方法 分 类 的 数据 


诊断 方法 2 分 类 
Mud 正常 组 异常 组 
分 类 
1 2 3 4 5 6 合计 1 2 3 4 5 6 合计 
1 9 3 0 0 0 0 n2 0 0 1 O 0 0 1 
2 17 9 2 0 0 0 28 1 0 2 0 0 0 3 
3 3 4 1 0 0 O 8 1 1 1 3 0 0 6 
4 1 2 2 1 0 0 6 l 1 1 9 1 O 13 
5 1 1 0 2 0 0 4 0 0 0 7 10 5 22 
6 0 0 0 0 0 O 0 0 0 0 0 4 5 9 
合计 3 19 5 3 0 0 58 3 2 S 19 1S 10 54 
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将 表 12-9 数据 整理 成 图 12-8 格式 。 因 为 是 频数 表 数 据 ， 必 须 事先 告诉 计算 机 哪 一 个 
变量 是 频数 。 具 体操 作为 : 单 击 Data— Weight Cases..., 7E Weight Cases... 对 话 框 中 选择 
“Weight Cases by”， 将 “频数 ” 选 入 Frequency Variable 下 方 的 空白 框 内 。 然 后 单 击 Graphs 
一 ROC Curves...， 在 ROC 曲线 对 话 框 中 同时 选择 “试验 1 与 试验 2” 作为 Test Variable; 
“组 别 ” 作 为 State Variable; 在 Value of State Variable 右 侧 的 空白 框 处 填写 “1”; 选取 所 有 
的 Display 选项 。 单 击 OK 按钮 ， 得 到 如 下 主要 结果 。 





6 
él 
21 
1 
1 
1 


A1 


1i jam 
+ | > À Data view Á Variable view / 


图 12-8 X 12-9 数据 的 SPSS 格式 
结果 12-13 直观 给 出 了 试验 1 与 试验 2 的 ROC 曲线 。 











ROC Curve 
1.0 — 
mL cd = Source of the Curve 
一 一 试验 1 
试验 2 
Reference Line 
z 
> 
= 
z 
5 
N 
po-T— T T —T T 
0.0 0.2 0.4 0.6 0.8 1.0 
l-Specificity 


Diagonal segments are produced by ties. 
结果 12-13 ROC 曲线 
结果 12-14 分 别 给 出 了 诊断 试验 1 与 试验 2 对 应 的 ROC 曲线 下 面积 分 别 为 0.883、0.930 
(检验 P=0.000, 表示 与 0.5 相 比 , 两 个 面积 均 有 统计 学 意义 ); 95% 置 信 区 间 分 别 为 40.819， 


0.947). (0.878, 0.982)。 因 为 以 上 这 两 个 置信 区 间 有 重 县 ， 所 以 两 个 曲线 下 面积 间 的 差异 
无 统计 学 意义 。 
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Area Underthe Curve 


vu x 

Asymptotic interval 

Test Result Variable(s Area | Std. Erro? Si 
.883 .033 .000 .819 .947 

E | 

The test result variable(s): UT 1, 试验 2 has at least one tie between the positivo actual state group 

and the negative actual state group. Statistics may be biased. 


a. Under the nonparametric assumption 









b. Null hypothesis: true area = 0.5 


结果 12-14 ROC 曲线 下 面积 


结果 释疑 : 


第 一 ， 可 采用 95% 和 置信 区 间 是 否 有 重合 来 简单 判断 两 两 诊断 试验 之 间 是 否 有 差异 。 第 
一 ， 这 里 比较 诊断 试验 的 前 提 条 件 是 ， 假 定 两 两 诊断 试验 之 间 相 互 独立 。 

SPSS 绘制 ROC 曲线 ， 以 及 计算 ROC 曲线 下 面积 等 指标 都 是 采用 非 参数 方法 ， 其 实 
计算 ROC 曲线 下 面积 公认 的 方法 还 有 双 正 态 ROC 模型 等 参数 方法 。 一 般 情 况 下 ， 非 参数 
方法 计算 出 来 的 曲线 下 面积 小 于 参数 方法 计算 的 结果 。 
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第 13 章 ”缺失 值 分 析 


13.1 ”缺失 值 分 析 简 介 


13.1.1 基本 概念 


缺失 值 (Missing Value) 是 指 在 数据 收集 过 程 中 ， 未 能 收集 到 某 些 指标 〈 变 量 ) 的 全 
部 观察 值 ， 而 导致 数据 集中 存在 的 变量 值 缺 失 现象 。 缺 失 值 是 数据 处 理 与 分 析 工 作 中 常见 
的 问题 之 一 ， 如 果 处 理 不 恰当 ， 往 往 会 给 数据 分 析 结 果 带 来 不 同 程度 的 偏 倚 ， 甚 至 导致 错 
误 。 无 论 在 观察 研究 还 是 实验 研究 中 ， 数 据 缺 失 的 问题 往往 无 法 避免 ， 因 此 缺失 数据 的 处 
理 方 法 就 成 为 数据 分 析 过 程 中 所 必须 考虑 的 操作 环节 之 一 。 

在 存在 缺失 值 的 情况 下 ， 研 究 者 关于 数据 处 理 的 目标 仍然 是 以 完整 样本 数据 推论 相应 
的 总 体 ， 即 所 追求 的 仍然 是 完整 样本 数据 下 所 得 的 结果 。 此 时 ， 数 据 的 分 析 过 程 以 及 从 中 
获得 推论 的 过 程 将 变 得 非常 复杂 ， 我 们 必须 以 特定 的 假设 为 前 提 ， 并 且 采 用 特定 的 计算 过 
程 进行 数据 分 析 。 当 前 ， 针 对 缺失 数据 最 常用 的 处 理 方式 是 直接 剔除 缺失 值 所 在 行 ， 即 删 
除 具 有 缺失 值 个 体 的 所 有 观测 值 ; 针对 纵向 观察 数据 ， 最 常用 的 处 理 方式 是 LOCF (Last 
Observation Carry Forward， 末 次 访 视 向 后 结 转 ) 法 。 这 些 方法 简单 易 行 ， 但 未 能 考虑 数据 
缺失 模式 所 带 来 的 影响 ， 容 易 导 致 分 析 结 果 的 偏差。 

当 样 本 数据 中 有 缺失 值 存在 时 ， 抽 样 过 程 将 同时 包含 观察 单位 的 选择 过 程 以 及 缺失 数 
据 的 产生 过 程 ， 后 者 亦 即 数据 的 缺失 机 制 。 因 此 ， 在 缺失 值 存在 情况 下 ， 统 计 分 析 应 考虑 
数据 缺失 机 制 对 分 析 结 果 的 影响 。 

数据 的 缺失 方式 可 分 为 条 目 缺 失 (tem Missingness) 和 单位 缺失 (Unit Missingness). 
对 于 条 目 缺 失 ， 缺 失 值 可 以 出 现在 应 变量 〈 即 结果 变量 ) 上 ， 也 可 以 出 现在 解释 变量 〈 即 
自 变量 ) 上 。 缺 失 数据 对 统计 分 析 结 果 的 影响 可 以 表现 为 对 参数 估计 值 (如 均 数 、 方 差 、 
百 分 位 数 、 率 、 比 、 回 归 系 数 等 ) 的 影响 ， 也 可 以 表现 为 对 统计 推断 (如 假设 检验 、 置 信 
区 间 及 贝 叶 斯 后 验 分 布 等 ) 结果 的 影响 。 而 缺失 数据 是 否 对 统计 分 析 结 果 有 影响 ， 取 决 于 
观察 值 缺失 概率 是 否 与 其 他 变量 或 者 本 身 的 取 值 有 关 。 
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在 现实 情况 下 ， 样 本 数据 可 表现 为 两 种 形式 ， 即 具体 测量 值 列 表 的 形式 和 缺失 值 模式 
的 形式 ， 见 表 13-1 和 表 13-2。 


表 13-1 包含 具体 测量 值 的 数据 表 





编号 varl var2 var3 var4 var5 var6 var7 
1 1 4 1 3.4 5.67 A 8.251 
2 1 3 ? ? 5.67 B 9.253 
3 1 2 1 2.7 5.72 B 12.812 
4 1 1 1 3.6 5.13 ? 13.614 
5 2 ? 1 ? ? A 11.442 
6 2 2 H 3.4 5.61 A 9241 





编号 varl Var2 var3 var4 var5 var6 var7 
1 1 1 1 1 1 1 1 
2 1 1 0 0 1 1 ] 
3 1 1 1 1 1 1 1 
4 1 1 1 1 1 0 1 
5 I 0 1 0 0 1 I 
6 1 1 1 1 1 1 1 





众所周知 ， 针 对 某 一 具体 样本 数据 ， 往 往 无 法 获知 其 抽样 过 程 (Sampling Process); 
同样 的 ， 对 于 包含 缺失 值 的 数据 ， 事 先 也 往往 无 法 知道 其 数据 的 缺失 机 制 。 单 赁 样本 数据 
本 身 ， 无 法 得 知 具体 的 抽样 过 程 ， 单 从 缺失 值 模式 ， 以 及 缺失 值 与 观察 值 之 间 关 系 ， 也 难 
以 识别 数据 的 缺失 机 制 。 能 否 用 完全 数据 的 方法 ， 对 包含 缺失 值 的 实际 测量 数据 进行 统计 
推断 ， 依 赖 于 两 方面 假定 : CO 缺失 值 的 出 现 与 其 本 身 真 实 取 值 之 间 的 关系 ; @ 缺失 值 的 
统计 学 效应 。 然 而 ， 这 些 假定 的 合理 性 难以 从 待 分 析 数 据 中 直接 评价 。 


13.1.2 MAFLA 

1. 相关 的 符号 说 明 

(1) 数据 

此 处 以 矩阵 Y 来 表示 所 收集 的 数据 ，Y 的 表达 式 为 

Y ={Y0, Ym} 

HP, PIEREKÆRZGE GERKO, HY, o hd. 

需要 注意 的 是 ， 此 处 的 数据 了 中 ， 包 含 应 变量 ， 也 包含 解释 变量 ， 可 表示 某 一 条 具体 
的 观测 ， 也 可 表示 整个 数据 集 。 
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(2) 缺失 值 标志 
针对 数据 Y 的 每 一 个 测量 值 y， 给 定 一 个 缺失 值 标志 R ， 其 定义 如 下 : 
R={ 1, 了 非 缺失 
0, 了 缺失 


由 R 组 成 的 矩阵 与 矩阵 相对 应 。 


2. 缺失 机 制 的 基本 含义 

针对 包含 缺失 值 的 数据 ， 执 行 预定 的 分 析 过 程 〈 如 同 缺失 数据 未 曾 发 生 )， 所 得 结果 
的 有 效 性 依赖 于 数据 的 缺失 机 制 。 

在 给 定 一 组 数据 〈 缺 失 的 和 未 缺失 的 ) 测量 值 条 件 下 ， 某 些 数据 发 生 缺 失 的 概率 可 表 
示 为 

Pr(RI yo, Ym) 

上 述 数据 缺失 概率 的 具体 表现 形式 ， 如 与 自身 取 值 的 关系 ， 与 其 他 变量 取 值 或 缺失 与 

否 的 关系 等 ， 反 映 了 数据 的 缺失 机 制 类 型 。 


3. 几 种 基本 的 缺失 机 制 类 型 

基本 的 缺失 机 制 包 括 完全 随机 缺失 、 随 机 缺失 、 非 随机 人 缺失 三 类 。 

(1) 完全 随机 缺失 

完全 随机 缺失 (Missing Completely At Random， 人 简称 为 MCAR)， 是 指 某 一 测量 值 缺 
失 的 概率 与 任何 测量 值 或 缺失 的 个 体 无 关 ， 其 缺失 概率 表现 形式 如 下 。 

Pr(r | yo, Ym) = Pr(r) 

在 抽样 调查 中 ， 完 全 随机 缺失 常常 被 称 为 均匀 无 应 答 (Uniform No-Response )。 

在 实验 室 研究 数据 中 ， 由 于 某 个 样品 损坏 而 导致 的 数据 缺失 就 是 一 个 典型 的 MCAR 
缺失 例子 。 在 实际 工作 中 ， 很 多 最 初 认为 是 MCAR 缺失 机 制 的 情况 ， 往 往 并 非 如 此 。 比 
如 在 临床 试验 中 ， 由 于 患者 在 公共 汽车 上 发 生 事故 而 导致 的 失 访 ， 如 果 临 床 试验 属于 精神 
病 治疗 有 关 的 类 型 ， 这 样 失 访 事件 极 有 可 能 是 疗效 不 佳 所 致 。 

如 果 缺 失 数据 的 缺失 机 制 类 型 为 MCAR,， 则 在 执行 既定 的 统计 分 析 操 作 中 ， 虽 然 会 损 
失 部 分 信息 ， 但 所 获得 的 分 析 结 果 将 会 和 完整 数据 的 分 析 结 果 保持 一 致 。 换 名 话说， 在 
MCAR 的 缺失 机 制 下 ， 完 全 数据 集 分 析 〈 即 将 包含 缺失 值 的 整个 观测 个 体 剔 除 ) 所 得 的 结 
果 将 是 合法 和 有 效 的 。 

(2) 随机 缺失 

在 完全 随机 缺失 的 概念 基础 上 ， 很 自然 地 会 产生 进一步 的 问题 。 即 在 缺乏 具体 缺失 值 
发 生机 制 的 条 件 下 ， 能 够 合法 、 有 效 地 基于 完全 数据 集 进行 统计 分 析 的 最 一 般 情况 是 什 
4? 也 就 是 说 ， 在 给 定 实测 数据 的 条 件 下 ， 缺 失 机 制 不 依赖 于 未 测 〈 缺 失 ) 数据 的 情况 即 
为 随机 缺失 ， 简 称 为 MAR (Missing at Random)。 其 数学 表达 式 为 

Prw1yo,ym)=Prr1yo) 

在 随机 缺失 情况 下 ， 具 有 相同 实测 值 的 两 个 观测 个 体 ， 在 各 个 变量 上 均 具 有 相同 的 统 

计 学 特性 ， 无 论 该 观测 个 体 相应 变量 的 取 值 是 否 缺失 。 例 如 ， 表 13-3 中 的 数据 ， 编 号 为 
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11 和 12 的 观测 个 体 具有 完全 相同 的 实测 值 变 量 取 值 。 假 定编 号 12 的 变量 var3, var5, var6 
的 观测 值 缺 失 为 随机 缺失 ， 则 编号 12 各 变量 的 取 值 将 与 编号 11 中 相同 变量 的 值 具有 相同 
的 分 布 〈 但 不 一 定 取 值 相等 )。 


表 13-3 ”实测 值 完全 相同 观测 的 实例 数据 


编号 varl var2 var3 var4 var5 var6 


li 1 3 4.3 3.5 1 4.6 


必须 注意 ， 此 处 的 随机 缺失 并 不 代表 直观 意义 上 的 “缺失 值 随 机 发 生 ”， 而 是 指 某 一 
观察 值 发 生 缺 失 的 概率 仅仅 依赖 于 已 测 得 的 观察 值 。 然 而 ， 在 实际 工作 中 ,仅仅 依靠 所 获 
得 的 数据 将 无 法 判断 数据 是 否 存 在 这 种 缺失 机 制 。 

随机 缺失 的 实例 包括 : @ 依据 预先 定义 的 判断 标准 ， 在 某 一 受 试 者 的 病情 未 得 到 有 
效 控制 的 情况 下 将 其 但 除 ，@ 针对 某 一 变量 的 重复 测定 〈 控 制 测量 精度 )， 如 果 前 两 个 测 
量 值 的 差别 超过 预先 给 定 的 界 值 , 则 进行 第 三 个 测量 值 的 测定 , 否则 不 再 进行 第 三 次 测量 ， 
此 时 发 生 的 第 三 个 测量 值 的 缺失 属于 随机 缺失 。 

随机 缺失 的 一 种 特殊 情况 是 组 内 均匀 无 应 答 (Uniform No-Response Within Class)。 比 
如 ， 在 收集 有 关 个 人 收入 和 所 得 税 级 别 的 调查 中 ， 高 收入 者 往往 更 加 倾向 于 隐瞒 个 人 收入 
状况 , 从 而 会 发 生 更 多 的 无 应 答 状 况 , 此 时 有 关 个 人 收入 的 平均 水 平 就 不 可 避免 地 被 低估 。 
如 果 事 先 已 知 每 个 人 的 个 人 所 得 税 级 别 ， 并 且 在 各 税率 级 别 内 有 关 个 人 收入 问题 的 无 应 答 
情况 随机 发 生 ， 则 可 认为 个 人 收入 的 数据 缺失 属于 随机 缺失 ， 因 为 个 人 收入 数据 是 否 缺 失 
仅仅 依赖 于 税率 级 别 〈 已 测 值 )， 即 在 给 定 税 率 级 别 的 条 件 下 ， 个 人 收入 的 数据 缺失 并 不 
依赖 于 个 人 收入 。 因 此 ， 为 了 获得 真实 的 个 人 收入 平均 水 平 估 计 值 ， 可 先 在 各 税率 级 别 内 
部 〈 利 用 完全 数据 集 ) 计算 其 平均 值 ， 再 以 各 税率 级 别人 数 比 重 计算 个 人 收入 的 加 权 平 均 
值 ， 从 而 获得 其 总 体 平 均值 的 无 偏 估计 。 

通过 上 述 例子 可 知 ， 在 缺失 值 存 在 的 情况 下 ， 简 单 描述 性 统计 量 可 能 会 产生 一 定 的 仿 
倚 。 然 而 通过 将 某 些 简单 模型 (如 个 人 收入 水 平 与 所 得 税 级 别 间 的 关联 ) 施加 到 特定 变量 
上 ， 使 得 数据 的 缺失 机 制 转变 为 随机 缺失 ， 即 可 获得 真实 有 效 的 分 析 结 果 。 

(3) 非 随机 缺失 

当 数 据 缺 失 既 不 属于 MCAR， 也 不 属于 MAR 时 ， 其 缺失 机 制 称 为 非 随机 人 缺失， 简称 
X MNAR (Missing Not At Random). Æ MNAR 的 情况 下 ， 数 据 缺 失 的 原因 依赖 于 缺失 值 
本 身 的 真实 测量 值 ， 合 法 、 有 效 的 统计 推断 依赖 于 数据 集 和 缺失 机 制 的 联合 统计 模型 ， 即 
Y 5 R 的 联合 模型 。 . 

然而 ， 仅 仅 依据 待 分 析 的 数据 本 身 ， 将 无 法 获知 数据 缺失 到 底 属 于 MCAR. MAR 还 
是 MNAR. XF MNAR 情况 ， 多 数 情况 下 也 无 法 确切 获知 针对 相应 缺失 机 制 的 适宜 统计 
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分 析 模 型 。 因 此 ， 针 对 不 同 缺失 机 制 统 计 模 型 进行 敏感 性 分 析 ， 以 观察 统计 推断 结果 随 不 
同 模型 (MCAR、MAR、MNAR ) 的 变化 情况 ， 对 于 包含 缺失 数据 集 的 分 析 将 具有 非常 重 
要 的 意义 。 但 是 敏感 性 分 析 也 因 经 常 受 限 于 实际 的 工作 条 件 (时 间 限 制 、 研 究 成 本 限制 等 ) 
而 难以 实施 。 

以 更 加 通俗 的 语言 来 讲 , MCAR 和 MAR 称 为 “可 忽略 ”的 数据 缺失 , MNAR 称 为 “不 
可 忽略 ”的 数据 缺失 。 在 大 多 数 情 况 下 ，MNAR 形式 的 数据 缺失 更 为 常见 。 


13.1.3 ”缺失 值 的 常用 处 理 方法 


对 于 包含 缺失 值 的 数据 分 析 ， 往 往 涉及 众多 围绕 各 种 假定 而 展开 的 具体 问题 。 具 体 来 
讲 ， 首 先 需 考虑 如 下 具体 问题 。 

。 根据 既定 条 件 ， 哪 种 假设 更 为 合理 和 可 取 (往往 取决 于 相关 的 专业 理论 知识 或 具体 

问题 的 相关 信息 ); 

。 力求 假设 的 内 容 清晰 明确 ; 

e 考察 统计 推断 过 程 对 于 该 假设 的 敏感 性 ; 

° 充分 了 解 哪 一 种 假设 与 所 进行 的 具体 分 析 过 程 相关 联 。 

一 般 来 讲 ， 对 于 缺失 值 的 处 理 ， 某 些 基 于 弱 假 设 (Weak Assumption) 的 处 理 手段 是 可 
取 的 ， 而 对 其 相应 的 实现 策略 〈 即 具体 的 计算 方法 ) 进行 探索 和 研究 也 具有 重大 的 意义 。 
然而 ， 目 前 经 常 采 用 的 缺失 值 处 理 手段 ， 往 往 计算 方法 简单 ， 但 要 求 以 强 假设 〈Strong 
Assumption) 为 基础 。 此 类 处 理 手 段 的 典型 例子 包括 完整 数据 集 分 析 和 LOCF (末次 访 视 
向 后 结 转 ) 方法 。 前 者 是 指 仅 将 完整 收集 的 观测 值 纳入 数据 处 理 的 方法 (忽略 有 缺失 的 观 
MA): 后 者 是 指 用 缺失 之 前 的 最 后 一 次 观察 值 直接 替换 缺失 值 ， 多 用 于 纵向 观察 研究 
的 数据 处 理 。 

1. 简单 缺失 值 处 理 方 法 及 其 缺陷 

相对 于 复杂 的 缺失 值 处 理 方法 ， 此 处 的 简单 方法 目的 在 于 获得 一 个 “完整 ”数据 集 ， 
然后 对 该 数据 集 进行 预定 的 分 析 处 理 ， 如 同 缺失 值 根 本 未 发 生 一 样 。 然 而 ， 这 种 处 理 方式 
所 得 的 结果 往往 存在 不 同 程度 的 缺陷 ， 除 非 该 类 处 理 方式 建立 在 有 极 具 说 服 力 的 特定 假设 
( 强 假设 ) 基础 上 。 

简单 缺失 值 处 理 方法 有 :完整 数据 集 分 析 法 (Completers Analysis)、 简 单 均 数 填补 法 
(Simple Mean Imputation), |P|H35 3 4 (Regression Mean Imputation)、 新 类 别 法 
(Creating and Extra Category) 和 LOCF 法 。 

(1) 完整 数据 集 分 析 法 

此 方法 直接 剔除 包含 缺失 值 的 观测 ， 将 剩余 完整 数据 作为 待 分 析 的 数据 集 进行 统计 分 
析 。 例 如 ， 在 表 13-4 F, FE var2 在 编号 为 10 的 观测 上 存在 缺失 值 。 

完整 数据 集 分 析 法 将 删除 包含 缺失 值 的 观测 ， 即 表 13-4 中 编号 10 的 一 行 数据 将 被 删 
除 ， 然 后 对 剩余 数据 (编号 1~9) 进行 既定 的 统计 学 分 析 。 在 实际 操作 中 ， 此 方法 仅 对 要 
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EImsxge5 
纳入 分 析 的 变量 缺失 值 所 在 行 〈 观 察 个 体 ) 进行 剔除 ， 未 纳入 分 析 的 变量 缺失 值 所 在 行 则 
不 受 影响 。 


表 13-4 一 个 包含 缺失 值 数据 集 的 实例 


varl var2 


E 
4m 


3.4 5.67 
3.9 4.81 
2.6 4.93 
1.9 6.21 
2.2 6.83 
33 5.61 
1.7 5.45 
24 4.94 


o 00 — ON t +O UU Nom 


2.8 5.73 


= 
° 


3.6 ? 


下 面 以 回归 分 析 为 例 ， 说 明 该 方法 的 缺陷 。 对 于 多 元 回归 分 析 ， 往 往 需要 进行 不 同 模 
型 (包含 不 同 解释 变量 ) 间 的 比较 ， 如 果 解 释 变 量 中 包含 缺失 值 ， 且 用 完整 数据 集 分 析 法 
进行 处 理 ， 则 回归 分 析 结 果 会 存在 很 大 问题 。 用 该 方法 处 理 缺 失 值 ， 要 么 采用 不 同 的 数据 
E (纳入 分 析 的 解释 变量 不 同 将 剔除 不 同 的 观测 个 体 ， 拟 合 不 同 模 型 ， 要 么 采用 相同 的 数 
据 集 (将 全 部 缺失 值 所 在 的 行 同时 剿 除 ， 此 时 数据 集 将 可 能 变 得 很 小 而 失去 其 代表 性 〉 拟 
合 不 同 模型 。 很 明显 ， 无 论 采 取 哪 种 处 理 方式 ， 这 样 拟 合 的 模型 结果 均 不 可 靠 。 另 外 ， 如 
果 缺 失 值 的 产生 不 是 一 种 完全 随机 的 方式 ， 那 么 完整 数据 集 分 析 法 将 会 得 出 有 偏 倚 的 参数 
估计 值 和 无 效 的 统计 推断 结果 。 

(2) 简单 均 数 填补 法 

此 方法 是 用 变量 的 未 缺失 测量 值 的 算术 平均 数 直接 代替 该 变量 的 全 部 缺失 值 ， 从 而 将 
数据 集 转化 为 完整 数据 集 。 

此 处 我 们 仍 以 表 13-4 中 的 数据 为 例 进行 演示 。 简 单 均 数 填 补 法 最 终 使 该 数据 集 转 化 为 
如 表 13-5 所 示 的 内 容 。 

在 表 13-5 中 ， 编 号 10 变量 var2 的 原 有 缺失 值 被 变量 var2 其 余 9 个 实测 值 的 算术 平 
均 数 5.58 所 填补 。 

该 方法 的 缺陷 显而易见 。 首 先 ， 如 果 缺 失 值 所 对 应 的 变量 为 分 类 变量 ， 该 方法 将 无 能 
为 力 。 使 用 此 方法 处 理 后 的 数据 集 ， 将 导致 各 类 关联 程度 指标 (如 回归 系数 ) 的 估计 值 产 
生 偏 差 ， 并 且 会 在 一 定 程度 上 削弱 存在 于 相应 变量 间 的 关联 趋势 。 此 外 ， 应 用 此 方法 处 理 
的 数据 集 将 得 出 错误 的 样本 方差 估计 值 〈 低 估 了 方差 的 大 小 )， 从 而 得 出 错误 的 统计 推断 
结果 。 


338 | 


缺失 值 分 析 ENKE 


表 13-5 ”简单 均 数 填补 法 处 理 缺 失 数据 实例 

编 号 varl var2 
3.4 5.67 
3.9 4.81 
2.6 4.93 
1.9 6.21 
2.2 6.83 
3.3 5.61 
1.7 5.45 
2.4 4.94 


N 00 — CO CAA A € N nm 


2.8 5.73 
3.6 ` 5.58 


— 
° 


(3) 回归 均 数 填补 法 

此 方法 的 具体 操作 步骤 为 : 首先 应 用 完整 数据 集 ( 吻 除 相关 变量 缺失 值 所 在 的 观测 个 
体 ) 拟 合 某 一 包含 缺失 值 变量 的 完整 变量 回归 方程 ， 然 后 以 此 回归 方程 为 基础 ， 应 用 完整 
变量 的 测量 值 计算 缺失 值 所 在 位 置 上 的 回归 预测 值 ( 回 归 均 数 )， 并 以 该 回归 均 数 替换 掉 
相应 的 缺失 值 。 显而易见 , 此 处 的 缺失 值 填补 过 程 利用 了 多 个 变量 间 联 合 分 布 的 有 关 信 息 。 

与 简单 均 数 填补 法 相 比 ， 在 大 多 数 情况 下 ， 回 归 均 数 填补 法 能 够 得 出 总 体 均 数 、 关 联 
性 指标 、 回 归 系 数 等 指标 的 更 为 准确 的 估计 值 。 然 而 回归 均 数 填补 法 所 得 的 填补 值 间 变异 
度 往往 过 小 ， 因 此 会 对 回归 系数 估计 值 的 精确 度 产生 影响 ， 从 而 导致 统计 推断 结果 的 偏 倚 
或 错误 。 

(4) 新 类 别 法 

该 方法 是 专门 针对 存在 于 分 类 变量 下 缺失 值 的 一 种 简单 处 理 方法 。 当 某 个 分 类 变量 中 
存在 缺失 值 时 ， 就 将 缺失 值 本 身 当 作 该 变量 的 一 个 新 的 水 平 ， 即 增加 一 个 代表 缺失 值 的 新 
的 类 别 。 

如 表 13-6 中 所 示 的 实例 , 编号 为 5,9, 10 个 体 的 分 类 变量 var3 均 为 缺失 值 ， 而 该 变量 
本 身 包含 了 取 值 为 1 和 2 的 两 个 水 平 。 应 用 此 处 的 方法 处 理 该 分 类 变量 的 缺失 值 ， 就 是 将 
所 有 缺失 值 当 成 一 个 新 的 水 平 来 看 待 ， 此 例 中 将 其 转换 为 3。 这样 一 来 ， 变 量 var3 就 增加 
了 一 个 新 的 水 平 。 

在 大 多 数 统计 分 析 软 件 中 ， 提 供 了 针对 该 种 缺失 值 处 理 方法 的 选项 ， 用 户 可 以 选择 采 
用 该 方法 处 理 分 类 变量 的 缺失 值 ， 也 可 以 选择 将 缺失 值 所 在 的 观测 个 体 剔 除 〈 即 完整 数据 
集 分 析 法 )。 

这 样 的 缺失 值 处 理 方式 虽然 简单 ， 但 它 共 有 诸多 不 容 忽 视 的 缺陷 。 该 方法 所 创建 的 新 
类 别 ， 会 对 数据 分 析 结 果 产 生 一 定 的 影响 ， 而 这 种 影响 的 大 小 取决 于 缺失 值 在 各 类 别 间 的 
分 布 情 况 〈 即 缺失 值 的 真实 测量 值 分 布 情况 )， 以 及 缺失 值 发 生 的 概率 与 其 他 变量 间 的 关 
系 。 创 建新 类 别 的 方法 ， 会 将 本 属于 差别 较 大 的 类 别 的 观测 个 体 纳入 到 同一 类 别 中 ， 因 此 
所 得 数据 分 析 结果 将 会 存在 较 大 的 偏 傈 。 经 此 方法 处 理 的 分 类 变量 ， 如 果 被 用 作 分 层 变量 
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对 分 析 结果 进行 校正 ， 那 么 作为 解释 因素 的 分 类 变量 的 效应 将 很 难 被 正确 估计 。 


表 13-6 ”创建 新 类 别 法 处 理 缺 失 数据 实例 


编 号 varl var2 var3 
1 3.4 5.67 1 
2 3.9 4.81 1 
3 2.6 4.93 1 
4 1.9 6.21 1 
5 2.2 6.83 ?一 >3 
6 3.3 5.61 2 
7 1.7 5.45 2 
8 , 2.4 4.94 2 
9 2.8 5.73 ?一 >3 
10 3.6 5.58 ?一 >3 


(5) 末次 访 视 向 后 结 转 (LOCF) 法 

该 方法 专门 用 于 对 纵向 随访 数据 的 缺失 值 处 理 。 对 于 每 一 个 观察 单位 ， 某 个 指标 在 某 
次 随访 上 的 缺失 值 ， 将 被 该 次 随访 之 前 最 近 一 次 随访 的 观察 值 所 替换 。 

如 表 13-7 所 示 , 编号 1 某 指标 的 6 次 访 视 中 , 后 3 次 缺失 ， 则 后 3 次 的 指标 值 将 以 第 
3 次 (之 前 最 近 一 次 ) 访 视 测 量 值 所 替换 。 编 号 3 后 2 次 缺失 ， 则 以 第 4 次 访 视 测量 值 所 
BA. 


R 13-7 LOCF 法 处 理 缺 失 数据 实例 





编 号 varl var2 var3 var4 varS var6 
1 3.8 3.1 2.0 ?一 >2.0 ?一 >2.0 ?一 >2.0 
2 4.1 3.5 3.8 2.4 2.8 3.0 
3 27 2.4 2.9 3.5 ?一 >3.5 ?一 >3.5 





对 于 包含 所 有 访 视 的 数据 分 析 重复 测 量 分 析 或 其 他 多 元 分 析 〉 过 程 ，LOCF 法 处 理 
的 数据 , 使 样本 数据 的 均 数 向 量 和 协 方差 矩阵 受到 极 大 和 焉 曲 。 而 对 于 单 次 访 视 的 数据 处 理 ， 
样本 均 数 同样 被 错误 地 估计 ， 且 其 置信 区 间 以 及 相应 的 统计 推断 结果 均 出 现 不 同 程度 的 错 
误 。 这 里 需要 指出 的 是 ， 无 论 缺 失 数据 的 产生 是 否 遵循 完全 随机 的 模式 ， 以 上 的 情况 均 无 
法 避免。 

上 述 的 缺失 值 简单 处 理 方法 ， 均 在 不 同 程度 上 存在 各 种 各 样 的 缺陷 ， 除 非 缺失 值 的 比 
例 足够 小 而 不 至 于 太 多 地 影响 统计 分 析 结 果 。 

2. 缺失 值 的 高 级 处 理 方法 

此 类 方法 具有 以 下 的 共同 特点 : 

° 不 直接 将 缺失 值 替换 为 某 个 特定 的 数值 ， 从 而 将 其 转化 为 非 缺 失 值 ; 
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e 将 现 有 信息 (实际 观测 到 的 数据 和 某 些 特定 的 背景 信息 ) 和 不 依赖 于 实测 数据 的 特 
定 假设 相 结 合 进 行 数据 统计 分 析 。 

该 类 方法 的 目的 在 于 获得 每 一 个 缺失 值 的 有 关 统 计 学 信息 ， 比 如 ， 有 关 该 缺失 值 真实 
取 值 的 分 布 信息 等 ， 获 知 有 关 缺 失 机 制 的 某 些 信息 。 

概括 来 讲 ， 缺 失 值 的 高 级 处 理 方法 主要 包括 以 下 几 种 类 型 : 基于 特定 模型 法 (Wholly 
Model Based Methods)， 简 单 随机 填补 法 〈Simple Stochastic Imputation)、 多 重 随 机 填补 法 
(Multiple Stochastic Imputation) 和 加 权 处 理 法 (Weighting methods). 

(1) 基于 特定 模型 法 

该 类 方法 以 特定 的 统计 学 模型 为 基础 ， 针 对 完整 数据 集 进行 分 析 ， 而 这 种 分 析 以 似 然 
估计 为 基础 。 应 用 此 类 方法 时 ， 需 事先 做 出 有 关 缺 失 机 制 的 假定 。 若 缺失 机 制 属 MCAR 
或 MAR 的 类 型 ， 则 无 须 使 用 专门 的 统计 模型 ， 若 缺失 机 制 属 MNAR 的 类 型 ， 则 必须 使 用 
相应 的 统计 模型 。 

此 类 基于 似 然 估计 的 统计 分 析 过 程 需要 对 人 缺失 值 信息 进行 特定 形式 的 综合 ， 以 获取 更 
为 有 效 的 分 析 结 果 。 根 据 具体 的 数据 背景 信息 ， 这 种 综合 过 程 可 以 通过 确定 或 不 确定 的 方 
式 、 直 接 或 间接 的 方式 进行 。 而 此 类 分 析 采 用 的 统计 学 模型 本 身 包含 了 有 关 缺 失 值 的 统计 
学 信息 处 理 机 制 ， 无 需 另 外 进行 专门 的 处 理 过 程 。MAR 缺失 情况 下 采用 的 混合 线性 模型 
是 此 类 方法 的 一 个 典型 实例 。 

(2) 简单 随机 填补 法 

该 类 方法 对 缺失 值 的 处 理 方式 是 采用 特定 的 变量 值 替代 缺失 值 。 与 简单 方法 中 采用 某 
种 平均 数 《〈 算 术 均 数 或 回归 均 数 ) 替代 缺失 值 不 同 ， 简 单 随机 填补 法 通过 从 特定 的 分 布 中 
随机 抽样 来 对 缺失 值 进行 替换 。 在 给 定 恰 当 分 布 的 情况 下 ， 通 过 填补 后 的 完整 数据 集 即 可 
获得 有 效 的 各 类 参数 估计 。 对 于 大 型 调查 数据 ， 以 与 缺失 个 体 〈 缺 失 值 所 在 的 观测 个 体 ) 
近似 的 完整 观测 个 体 为 基础 ， 进 行 缺 失 变量 值 的 抽取 填补 。 这 种 就 近 填 充 (Hot-Deck 
Imputation) 法 包括 了 诸多 的 具体 操作 形式 ， 而 其 核心 思路 均 是 以 有 关 缺 失 值 分 布 的 某 种 
非 参数 估计 值 作为 填补 值 。 

此 类 方法 的 各 种 参数 估计 值 虽 然 具 有 较 好 的 效果 ， 但 对 于 统计 推断 的 精确 度 (如 方差 
等 ) 问题 应 慎重 考虑 。 这 一 点 意味 着 ， 基 于 完整 数据 集 的 常用 精确 度 指 标 将 不 再 合法 、 有 
效 ， 因 而 不 能 用 于 最 终 的 统计 推断 过 程 。 因 此 ， 对 于 每 个 特定 类 别 的 参数 估计 值 〈 均 数 、 
率 、 百 分 位 数 等 )， 每 种 形式 的 填补 方法 均 会 给 出 相应 的 方差 估计 〈 基 于 研究 设计 或 基于 
分 析 模 型 )。 而 这 种 方差 估计 往往 过 于 复杂 ， 不 易 进 行 实际 的 介绍 和 应 用 。 

(3) 多 重 随 机 填补 法 

多 重 随机 填补 法 与 简单 随机 填补 法 的 操作 过 程 非常 相似 ， 不 同 之 处 在 于 前 者 具有 更 多 
的 随机 抽样 形式 。 对 缺失 值 的 具体 处 理 方式 ， 多 重 随机 填补 法 与 简单 随机 填补 法 最 为 重要 
的 不 同 之 处 在 于 填补 〈 对 缺失 值 的 替换 次数 的 不 同 。 多 重 随机 填补 法 对 缺失 值 的 填补 将 
重复 进行 若干 次 (大 多 数 为 5~10 次 )， 而 不 像 简单 随机 填补 法 仅仅 填补 1 次 。 在 随机 抽 
样 过程 适 当 的 情况 下 ， 应 用 多 重 随 机 填补 方法 能 够 更 为 直接 地 获得 有 关 方 差 的 估计 值 ， 从 
而 能 够 进行 更 为 有 效 的 统计 推断 。 
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应 用 多 重 随机 填补 法 处 理 缺 失 数据 时 ， 多 次 填补 所 获得 的 有 关 统计 量 的 变异 度 可 被 用 
来 对 基于 完全 数据 的 精确 度 统计 量 〈 如 方差 等 ) 进行 校正 ， 从 而 使 所 得 的 参数 估计 值 更 为 
客观 、 准 确 。 对 于 MAR 缺失 ， 此 种 操作 方法 能 够 获得 更 为 有 效 的 统计 推断 结果 。 

(4) 加 权 处 理 法 

加 权 处 理 方法 以 数据 中 测量 值 发生 缺 失 概率 Pr(R; =11Y;) 的 倒数 为 权重 ， 在 参数 估计 
时 对 每 一 测量 值 的 贡献 进行 加 权 处 理 ， 从 而 使 参数 估计 值 更 加 接近 客观 真实 情况 。 该 类 处 
理 方法 的 现实 困难 在 于 数据 中 测量 值 发 生 缺 失 概率 大 小 的 获取 ， 多 数 情况 下 对 该 概率 的 估 
计较 为 粗略 ， 因 此 所 得 的 参数 估计 值 往往 存在 较 大 的 变异 。 


13.2 SPSS 操作 提示 


13.2.1 SPSS 的 缺失 值 处 理 方 法 


在 SPSS 的 软件 环境 中 ， 诸 多 的 功能 模块 本 身 就 包含 了 相应 的 缺失 值 处 理 机 制 ， 比 如 
线性 回归 分 析 和 时 间 序 列 分 析 模 块 等 。 另 外 ，SPSS 中 还 包含 专门 的 处 理 缺 失 值 的 功能 模 
$k, BJ "Missing Value Analysis” 模 块 。 下 面 专门 针对 此 功能 模块 ， 介绍 SPSS 的 缺失 值 处 
理 方法 。 

在 需要 进行 缺失 值 处 理 的 数据 中 ， 缺 失 变 量 〈 包 含 缺 失 值 并 需 相 应 处 理 的 变量 ) 可 以 
是 数值 变量 〈 定 量变 量 )， 也 可 以 是 分 类 变量 《定性 变量 )。 缺 失 值 的 编码 〈 代 表 缺 失 值 的 
符号 ) 除 系 统 默 认 方 式 〈System-Missing Value) 外 ， 还 可 以 指定 为 用 户 自 定 义 的 缺失 编码 
方式 (User-Missing Value). 

SPSS 对 缺失 数据 的 处 理 方式 主要 包括 4 种 主要 方法 ， 即 逐 列 (Listwise) 处 理 、 配 对 
(Pairwise) 处 理 、 问 归 (Regression) 估计 及 EM (Expectation Maximization) 估计 。4 种 
方法 的 操作 方式 和 主要 功能 如 下 。 

(1) 逐 列 处 理 法 

将 当前 所 有 处 理 变量 中 任何 一 个 出 现 缺 失 值 的 观测 个 体 统 统 剔 除 ， 针 对 剩余 的 完整 数 
据 《对 于 当前 处 理 变 量 ) 计算 相关 变量 的 均 数 、 相 关 扼 阵 及 方差 协 方差 矩阵 。 

(2) 配对 处 理 法 

在 当前 处 理 变量 中 ， 将 数值 变量 两 两 配对 ， 然 后 针对 每 一 对 变量 ， 给 出 两 者 均 未 缺失 
的 观测 数量 ， 并 给 出 基于 两 者 完整 数据 〈 两 者 中 任何 一 个 为 缺失 值 的 观测 将 被 剔除 ) 的 均 
数 向 量 、 方 差 协 方差 矩阵 及 相关 系数 等 。 

(3) EM 估计 法 

通过 特定 的 重复 估计 过 程 ， 以 EM 算法 估计 填补 缺失 值 ， 然 后 基于 填补 后 数据 ， 给 出 
当前 处 理 变量 的 均 数 、 方 差 协 方差 矩阵 及 相关 和气 阵 。 

(4) 回归 估计 法 

首先 采用 回归 算法 对 缺失 值 进行 填补 ， 然 后 基于 填补 后 数据 ， 给 出 当前 处 理 变量 的 均 
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数 、 方 差 协 方差 矩阵 及 相关 矩阵。 

在 SPSS 的 缺失 值 处 理 方式 中 ,， 逐 列 处 理 、 配 对 处 理 需 要 的 假定 前 提 条 件 是 MCAR tit 

而 回归 估计 、EM 估计 的 假定 前 提 条 件 是 MAR 缺失 。 

SPPS 缺失 值 处 理 模块 主要 包含 以 下 三 方面 的 功能 : 

。 描述 数据 的 缺失 模式 ， 包 括 缺 失 值 所 在 的 位 置 ， 缺 失 值 发 生 的 规模 ， 发 生 缺 失 值 的 
变量 是 否 存 在 成 对 的 趋势 ， 数 据 的 极端 值 情况 ， 以 及 数据 缺失 是 否 随 机 等 ; 

e 采用 逐 列 处 理 、 配 对 处 理 、 回 归 估 计 及 EM 估计 方法 对 均 数 、 标 准 差 、 方 差 、 相 关 
系数 等 进行 估计 ; 

e 以 回归 和 EM 方法 的 估计 值 对 缺失 值 进 行 填补 。 


13.22 ”缺失 值 处 理 的 SPSS 操作 


下 面 我 们 以 SPSS 中 自 带 的 实例 数据 “World 95 for Missing Values.sav” 为 例 〈 见 配 书 
光盘 中 的 数据 文件 data13-1.xls 或 data13-1.sav)， 来 演示 SPSS 对 缺失 值 的 处 理 方法 。 
% 操作 提示 

Analyze : 

Missing Value Analysis... 

在 弹出 的 “Missing Value Analysis” 对 话 框 中 ， 首 先 选 定 需要 进行 缺失 值 分 析 的 全 部 
变量 。 将 定量 变量 选 入 到 “Quantitative Variables” HEP, 此 处 选 入 population. density, urban, 
literacy、calories、lit_male、lit_fema、zcalorie 8 个 变量 ; 分 类 变量 选 入 到 “Categorical Variables” 
框 中 ， 此 处 选 入 religion. climate. region. region2 4 个 变量 。 将 变量 country 作为 记录 标 
识 选 入 “Case Labels” 框 ， 输 出 结果 中 有 关 缺 失 数据 信息 的 记录 列表 将 以 country 变量 的 
取 值 为 标识 。 选 入 相应 变量 后 的 “Missing Value Analysis” 对 话 框 如 图 13-1 所 示 。 


S 


b Log (base 10) of A! 
Q Birth to death ralio 
È Fertility: average n. 
® Log (base 10) of Pe 





图 13-1 “Missing Value Analysis" X} ifft 
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待 分 析 变 量 选 定 后 ， 单 击 “Missing Value Analysis” 对 话 框 右上 角 的 “Patterns...” 按 
钮 ， 弹 出 “Missing Value Analysis: Patterns ”对话 框 。 

* Display ”项 中 包含 3 个 复 选 框 ,用 于 设置 输出 结果 中 数据 缺失 记录 的 显示 。“Tabulated 
cases, grouped by missing value patterns ”表示 以 分 组 列表 的 形式 显示 缺失 记录 ; "Cases with 
missing values, sorted by missing value patterns” 表 示 以 清单 的 形式 列表 显示 缺失 记录 ;“ All 
cases, optionally sorted by selected variable” 表 示 以 清单 的 形式 列表 显示 全 部 记录 。 此 处 选 
择 前 两 项 显示 方式 。 

“Variables” 项 中 包含 3 个 输入 框 ， 其 中 , “Missing Patterns for: ”输入 框 中 包含 全 部 进 
行 缺 失 分 析 的 变量 ， 可 以 从 中 选择 需 进 一 步 操作 的 变量 。“Additional Information for: ” 输 
入 框 中 的 变量 将 会 在 输出 结果 中 给 出 更 为 详细 的 信息 ， 此 处 选择 populatn, density, urban 
三 个 变量 。“Sort by: ”输入 框 将 包含 用 于 进行 排序 的 变量 , 此 项 在 “Display ”项 的 “All cases, 
optionally sorted by selected variable” 复 选 框 被 选中 后 方 可 激活 ， 为 其 清单 列表 提供 一 个 进 
行 排序 的 变量 。 进 行 上 述 设置 后 的 “Missing Value Analysis: Patterns” 对 话 框 如 图 13-2 所 
不 。 


| 
Dmi pattems withlessthan [1 š % of cases _caneal | 
IV Sott variables by missing value pattem Help | 
fV. Cases with missing values, sorted by missing value pattems 
ÍV Son variables by missing value pattem | 
(7 Al cases, optionally sorted by selected variable 


Variables 
Missing Pattems for: Additional Information for: 
populatn 


aE 





E -—u: | 


Lit 
Fog 





图 13-2 “Missing Value Analysis: Patterns” 对 话 框 


“Missing Value Analysis: Patterns” 对 话 框 设置 完成 后 单 击 “Continue” 按 钮 ， 返 回 
“Missing Value Analysis” 对 话 框 。 单 击 对 话 框 右上 角 的 “Descriptives...” 按 钮 , 弹出 “Missing 
Value Analysis: Descriptives ”对 话 框 。 

“Univariate statistics” 复 选 框 用 于 设置 单 变量 统计 描述 结果 的 显示 方式 ， 选 中 该 复 选 
框 则 显示 每 一 个 待 分 析 变 量 的 单 变 量 的 统计 描述 结果 。 

YE “Indicator Variable Statistics” Jji F, “Percent mismatch” 复 选 框 用 于 控制 输出 结果 
中 是 否 给 出 数值 型 变量 两 两 之 间 不 匹配 缺失 数据 对 占 总 缺失 数据 对 的 百分比 。“t tests with 
groups formed by indicator variables” 复 选 框 用 于 控制 是 否 显示 如 下 的 + 检验 结果 : 按照 有 
缺失 数据 的 数值 型 变量 (按照 其 数据 是 否 缺 失 ) 将 数据 记录 分 为 两 组 ， 并 对 其 余 所 有 数值 
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型 变量 进行 组 间 比 较 的 1 检验 。“Crosstabulations of categorical and indicator variables” 复 选 
框 用 于 控制 是 否 显 示 分 类 变量 各 水 平 上 各 个 数值 型 变量 的 数据 缺失 情况 (以 交叉 列表 的 形 
式 显示 在 结果 中 )。 最 下 端的 “Omit variables missing less than x% of cases” 输 入 框 用 以 指 
定数 值 型 变量 中 缺失 数据 百分比 小 于 多 少 ， 就 排除 此 处 的 描述 性 分 析 过 程 。 此 处 设置 好 后 
的 “Missing Value Analysis: Descriptives” 对 话 框 如 图 13-3 所 示 。 


ÍV ttests with groups formed by indicator variables 
IV. Include probabilities in table 
. I. Crosstabulalions of categorical and indicator variables 





图 13-3 "Missing Value Analysis: Descriptives” 对 话 框 


“Missing Value Analysis: Descriptives” 对 话 框 设置 完成 后 ， 单 击 “Continue” 按 钮 返回 
“Missing Value Analysis” 对 话 框 。 

fE “Missing Value Analysis” 对 话 框 中 , “Estimation” 项 下 的 “Listwise”、 “Pairwise”. 
"EM", “Regression” 复 选 框 用 于 控制 缺失 值 分 析 的 方法 ， 分 别 代表 逐 列 处 理 方法 、 配 对 
处 理 方法 、EM 估计 方法 以 及 回归 估计 方法 。 此 处 将 这 4 个 复 选 框 全 部 选中 。 当 选中 “EM” 
复 选 框 和 “Regression” 复 选 框 后 ,其 下 方 的 “Variables... ”按钮 、“EM...” 按 钮 和 “Regression...” 
按钮 被 相应 激活 ， 如 图 13-1 所 示 。 

单 击 图 13-1 中 的 “Variables...” 按 钮 ， 进 入 “Missing Value Analysis: Variables for EM 
and Regression” 对 话 框 。 此 对 话 框 用 于 指定 EM 估计 方法 和 回归 估计 方法 中 的 应 变量 和 自 
变量 ， 在 默认 状态 下 ， 所 有 数值 型 变量 都 将 被 作为 应 变量 和 自 变量 来 使 用 。 如 果 要 指定 这 
两 种 方法 的 应 变量 和 自 变 量 〈 即 哪些 变量 可 以 采用 这 两 种 方法 进行 估计 ， 在 进行 估计 时 哪 
些 变量 可 以 被 用 作 自 变量 )， 则 选择 对 话 框 上 方 的 “Select variables” 单 选 钮 ， 此 时 
“Quantitative Variables” 列 表 框 、“Predicted Variables” 列 表 框 和 “Predictor Variables” 列 表 
框 被 激活 , 用 户 可 从 左 侧 的 全 部 数值 型 变量 列表 中 选择 变量 , 作为 应 变量 或 自 变量 来 使 用 ， 
一 个 变量 可 同时 作为 两 种 形式 来 使 用 。 此 处 保持 其 默认 设置 方式 ， 如 图 13-4 所 示 。 

单 击 “Continue ”按钮 返回 “Missing Value Analysis” 对 话 框 。 

单 击 图 13-1 中 的 “EM...” 按 钮 ， 进 入 “Missing Value Analysis: EM” 对 话 框 ， 此 对 话 
框 用 于 对 EM 估计 方法 的 各 种 参数 进行 设置 。“Distribution "项 中 的 3 个 单 选 钮 用 于 指定 数 
据 的 假定 分 布 形式 ， 其 中 “Normal” 表 示 正 态 分 布 ; “Mixed normal” 表示 混合 正 态 分 布 ， 
其 中 可 进一步 指定 混合 比例 及 标准 差 比 ;“Student's t” 表 示 student-t 分 布 ， 可 进一步 指定 
其 自由 度 。 对 话 框 下 方 的 “Maximum iterations:” 输 入 框 用 于 指定 一 个 正 整数 ， 作 为 EM 估 
计 方 法 的 最 大 迭代 次 数 ， 当 此 迭代 运算 达到 此 最 大 次 数 之 后 即 会 停止， 即使 所 得 估计 值 未 
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达到 收敛 界 值 。“Save completed data” 复 选 框 用 来 控制 EM 估计 所 得 的 完整 数据 集 是 否 保 
存 到 指定 的 数据 文件 ， 选 中 此 复 选 框 后 需 进一步 指定 数据 文件 的 物理 路 径 和 文件 名 称 〈 激 
活 的 “File...” 按 钮 )。 此 处 保留 其 默认 设置 ， 如 图 13-5 所 示 。 








图 13-4 “Missing Value Analysis: Variables for EM and Regression ”对话 框 


单 击 “Continue” 按 钮 返回 “Missing Value Analysis” 对 话 框 。 

单 击 图 13-1 中 的 “Regression...” 按 钮 ， 进 入 “Missing Value Analysis: Regression" ”对 
话 框 ， 此 对 话 框 用 来 对 回归 估计 方法 的 各 项 参数 进行 设置 。 回 归 估 计 方 法 以 多 重 线性 回归 
模型 来 估计 变量 的 缺失 值 ， 对 于 多 重 线性 回归 所 得 的 估计 值 ， 回 归 估 计 方 法 还 会 加 入 一 个 
随机 成 分 ， 用 来 对 回归 估计 值 进行 校正 , “Estimation Adjustment” 项 下 的 4 个 单 选 钮 即 用 
来 选择 这 里 的 具体 校正 方法 。“Residuals” 表 示 从 完全 数据 的 残 差 中 随机 选择 校正 成 分 ; 
“Normal variates”( 正 态 分 布 误差 项 ) 表示 从 均 数 为 零 、 标 准 差 为 回归 均 方 平方 根 的 正 态 
分 布 中 随机 选择 校正 成 分 ;“Student’s t variates ”表示 从 Student-t 分 布 中 随机 选择 校正 成 分 
(以 误差 均 方 平方 根 为 单位 )。 对 话 框 下 方 的 “Maximum number of predictors:” 输 入 框 用 以 
指定 一 个 正 整 数 ， 作 为 回归 估计 时 可 选 入 的 最 大 自 变量 个 数 。“Save completed data” 复 选 
框 的 功能 和 设置 方法 与 “Missing Value Analysis: EM” 对 话 框 中 的 完全 相同 。 此 处 也 同样 
保留 其 默认 设置 ， 如 图 13-6 所 示 。 





图 13-5 “Missing Value Analysis: EM” 对 话 框 图 13-6 “Missing Value Analysis: Regression ”对 话 框 
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单 击 “Continue” 按 钮 返回 “Missing Value Analysis” 对 话 框 。 
上 述 各 项 设置 完成 后 ， 单 击 “OK” 按 钮 执行 缺失 值 分 析 过 程 。 


13.3 ”结果 解释 


上 述 实 例 操作 结果 见 以 下 内 容 。 由 于 结果 内 容 较 多 ， 我 们 将 分 段 进 行 解释 。 

“Univariate Statistics” 部 分 显示 各 变量 的 有 关 单 变量 分 布 及 缺失 信息 〈 见 结果 13-1), 
其 中 包括 非 缺 失 变量 值 个 数 、 均 数 、 标准 差 、 缺 失 值 个 数 、 缺 失 值 百 分 比 及 极端 值 个 数 (No. 
of Extremes) 等 。 其 中 极端 值 的 定义 在 注释 a 中 给 出 了 具体 的 说 明 ， 此 处 定义 为 小 于 Q 
减 去 1.5 倍 的 四 分 位 数 间距 者 以 及 大 于 Q3 加 上 1.5 倍 的 四 分 位 数 间距 者 。 对 于 分 类 变量 ， 
仅 列 出 缺失 值 个 数 及 缺失 值 百分比 。 


Univarlate Statistics 


| ee ene ET ELI 
Std. Deviation | Count | Percent | Low | Heh | 


146726.364 

ta. p^ 675.7052 
56.53 24.203 
78.34 22.883 
2753.83 567.828 


78.73 20.445 
67.26 28.607 
-0000 1.00000 


e@ o O O O O O o. 





a. Number of cases outside the range (Q1 - 1.5*IQR, Q3 + 1.5*IQR). 


结果 13-1 Univariate Statistics 结果 


“Summary of Estimated Means” 部 分 给 出 的 是 分 别 采 用 逐 列 处 理 法 、 完 全 数据 集 分 析 
ik. EM 估计 法 及 回归 估计 法 4 种 方法 得 出 的 各 变量 的 均 数 〈 见 结果 13-2). 


Summary of Estimated Means 


Listwise 
All Values 
EM 
Regression 





populatn 
density 
literacy 
calories 
lit fema 












23. as area. P 
205.057 2775.84 
203.415 2792.92 











结果 13-22 Summary of Estimated Means 结果 


“Summary of Estimated Standard Deviations” 部 分 给 出 的 是 分 别 采 用 逐 列 处 理 法 、 完 全 
数据 集 分 析 法 、EM 估计 法 及 回归 估计 法 4 种 方法 得 出 的 各 变量 的 标准 差 〈 见 结果 13-3). 
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Summary of Estimated Standard Deviations 


Listwise 
All Values 
EM 145950.631 


195325.705 
146726.364 


586.5478 
675.7052 
678.6366 
675.7052 


500.166 

567.828 1.00000 
547.560 .96431 
641.371 1.12792 


Regression | 146726.364 





结果 13-3 Summary of Estimated Standard Deviations 结果 


“Separate Variance t Tests” 部 分 显示 的 是 有 关 各 数值 型 变量 的 组 间 1 检验 结果 ( 见 结果 
13-4)。 其 分 组 是 按照 有 缺失 数据 《〈 此 处 为 缺失 值 百分数 大 于 5 者 ， 即 calories. lit male. 
lit fema, zcalorie 4 个 变量 ) 的 数值 型 变量 〈 按 照 其 数据 是 否 缺 失 ) 将 所 有 数值 型 变量 分 
为 两 组 ， 即 缺失 值 组 (Missing) 和 非 缺失 组 〈Present)。 其 中 给 出 的 信息 包括 rf. B 
度 、 双 侧 检验 己 值 、 缺 失 值 组 例 数 、 非 缺失 组 例 数 、 缺 失 值 组 均 数 和 非 缺失 组 均 数 。 


t 

df 

# Present 

# Missing 
Mean(Present) 
Mean(Missing) 


85.1 

75 

34 
60106.15 
20410.06 


Separate Variance t Tests* 


152.601 
315.503 


75 
0 
2753.83 





t 

df 

# Present 

# Missing 
Mean(Present) 
Mean(Missing) 
t 

df 

# Present 

# Missing 
Mean(Present) 
Mean(Missing) 
t 

df 

3t Present 

# Missing 
Mean(Present) 


Mean(Missing) 


17 


85 

24 
54817.32 
22601.29 
1.7 

100.3 

85 

24 
54817.32 
22601.29 
1.9 


75 
34 
60106.15 
20410.06 








-8.6 
53.7 
59 
16 
2588.81 
3362.31 


75 
0 
2753.83 





For each quantitative variable, pairs of groups are formed by indicator variables (present, missing). 


8. Indicator variables with less than 5% missing are not displayed. 


结果 13-4 Separate Variance t Tests 结果 


" Crosstabulations of Categorical Versus Indicator Variables” 部 分 给 出 的 是 以 交叉 表 形 式 
显示 的 4 个 分 类 变量 各 水 平 下 缺失 值 百 分 数 大 于 5 的 数值 型 变量 ( 即 calories. lit male. 
lit_fema、zcalorie) 的 数据 缺失 情况 〈 见 结果 13-5). 
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Crosstabulations of Categorical Versus Indicator Variables 
religion 





Buddhist 
Orthodox 


calories Count 
Percent 
% SysMis 


lit male Count 
Percent 
96 SysMis 
lit fema Count 
Percent « 
% SysMis 
zcalorie Count 
Percent 
96 SysMis . ， 
Indicator variables with less than 5% missing are not displayed. 
(a) 


climate 






arid / desert 
arctic / temp 


mediterranean 


Count 
Percent 
% SysMis 
lit male Count 
Percent 
36 SysMis 
lit ferna Count 
Percent 
% SysMis 
zcalorie Count 
Percent 
% SysMis 





(b) 


East Europe 


一 | Pacific/Asia 
Middle East 


Present Count 
Percent 
Missing % SysMis 

lit rale Present Count 
Percent 
Missing % SysMis 

lit fema Present Count 
Percent 
Missing — 96 SysMis 

zcolorie Present Count 
Percent 
Missing — 36 SysMis 
Indicator variables with less than 596 missing are not displayed. 

(c) 





结果 13-5  Crosstabulations of Categorical Versus Indicator Variables 结果 
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region2 


East Europe 
Pacific/Asia 
Middle East 


Present 


Missing % SysMis 
lit male Present Count 
Percent 
Missing % SysMis 
lit fema Present Count 
Percent 
Missing — % SysMis 
zcalorie Present Count 
Percent 
Missing % SysMis 
Indicator variables with less than 5% missing are not displayed. 
(d) 


结果 13-5 (4) 





“Percent Mismatch of Indicator Variables” 部 分 给 出 了 calories. lit_male, lit_fema, zcalorie 
4 个 变量 两 两 之 间 缺 失 值 情况 不 匹配 者 的 百分比 (缺失 、 非 缺失 不 一 致 的 变量 值 对 子 占 总 观测 
数 的 百分比 )。 结 果 中 对 角 线 所 在 的 单元 格 显示 的 是 各 变量 的 缺失 值 百 分 比 〈 见 结果 13-6. 


Percent Mismatch of Indicator Variabies*^ 





[ 
lit fema . 22.02 
calories | 38.53 | 38.53 | 31.19 
zcalorie | 38.53 | 38.53 .00 | 31.19 


The diagonal elements are the percentages 
missing, and the off-diagonal elements are the 
mismatch percentages of indicator variables. 
8. Variables are sorted on missing patterns. 
b. Indicator variables with less than 596 
missing values are not displayed. 


结果 13-6 Percent Mismatch of Indicator Variables 结果 


" Listwise Statistics” 部 分 给 出 的 是 以 逐 列 处 理 方法 处 理 缺 失 值 后 各 数值 型 变量 的 有 关 
统计 量 。 其 中 包括 各 变量 的 均 数 〈 其 中 包含 最 终 的 观测 个 数 )、 各 变量 的 方差 协 方 差 矩阵 
及 相关 矩阵 等 〈 见 结果 13-7)。 

“Pairwise Statistics” 部 分 给 出 的 是 以 配对 处 理 方法 处 理 缺 失 值 后 各 数值 型 变量 的 有 关 
统计 量 。 其 中 包括 各 变量 的 两 两 配对 观测 频数 、 两 两 配对 处 理 后 的 均 数 、 标 准 差 ， 以 及 配 
对 处 理 后 的 方差 协 方差 矩阵 和 相关 矩阵 〈 见 结果 13-8). 
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Listwise Statistics 
Ustwise Means 













populatn 
density 
urban 
literacy 
calories 
lit fema 
zcalorie 





Number of cases 


[56 | 65521.35 | 162178 | 2935 [ 69-10 | 2570.16 | 7438 | 6152 


(a) 





Listwise Covariances 
8 (| 8 
o N 
populatn| 38152131129.979 
density 531148.069 | 344038.3579 
urban -946812.057 2755.9127 
literacy -35436.754 1041.4041 493.779 
colorles -1885641.771 36122.8807 6214.054 | 250165.642 
lit male 145008.339 1118.8400 411.721 5564.652 | 390.263 
lit fema -148071.839 1307.1030 574.068 7098.655 | 508.623 | 721.026 
zcalorle -3320.799 63.6159 10.944 440.566 9.800 12.501 | .77588 
(b) 
Lisiwise Correlations 


literacy 
calories 
lit male 
lit ferna 
zcalorie 





(c) 
结果 13-7 Listwise Statistics 结果 


Pairwise Statistics 
Pairwise Frequencies 


populotn 
literacy 
calories 
religion 


populatn 
density 
urban 
literacy 
calories 
lit male 
lit fema 
zcalorie 
religion 
climate 
region 
region2 








E8AEBSSE 


(a) 


结果 13.8 Pairwise Statistics 结果 
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Pairwise Means 


populat] 47723.88 
density 47723.88 
urban 48069.47 
literacy | 48500.96 


colores | 60106.15 
lit male | 54817.32 
lit fema | 54817.32 
zcalore į 60106.15 
religion | 47759.29 
climate | 48385.60 
region 47723.88 
region2 | 45906.57 
Mean of quantitative variable when other variable is present. 
(b) 


Pairwise Standard Deviations 





populatn| 146726.364 | 675.7052 ) 

density | 146726.364 | 675.7052 , z 567.828 
urban 147365.83} | 678.8199 . . 562.262 
literacy | 147990759 | 681.7454 ， ni 562.262 
calories | 174444.052 | 517.7257 | . 567.828 
lit rale | 164902.049 | 761.2679 , . 516.132 
lit fema | 164902.049 | 761.2679 . , 516.132 
zcalote | 174444.052 | 517.7257 | . 567.828 
religion | 147409.939 | 678.6583 . | 567.828 
Climate | 148018.021 | 681.0106 , . 567.828 
region 146726.364 | 675.7052 . 1 567.828 
region2 | 146628.459 | 681.5445 . ， 558.410 





Cc) 


pulatn | 21528625814.144 
-1815319.197 | 456577.5079 
-622834.270 3660.7726 
-215128.921 480.7229 | 355.365 





-4675789.528 | 19598.4435 | 9769.534 322428.334 
18585.051 1328.7799 | 290.927 5879.516 
-217769.702 623.9351 | 424016 7638.316 
-8234.521 34.5148 17.205 567.828 
(d) 
Polrwise Correlations 
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“EM Estimated Statistics” 部 分 给 出 的 是 以 EM 估计 方法 处 理 缺 失 值 后 各 数值 型 变量 的 
有 关 统 计量 〈 见 结果 13-9)。 其 中 包括 各 变量 的 均 数 、 方 差 协 方差 矩阵 和 相关 和 矩 阵 ， 并 且 
每 个 表格 的 下 方 还 给 出 了 有 关 完 全 随机 人 缺失 (MCAR ) 假设 的 检验 结果 (Little's MCAR 


test), 


populatn 
density 
urban 
literacy 
calories 
lit male 
lit fema 
zcalorie 


EM Estimated Statistics 
EM Means? 


> 
Š 
s 
$ 
= 





[ss [2sosr [sess [ TEXT | TIS | SES | zz3z asss ] 


a. Little's MCAR test: Chi-Square = 10.469, DF = 23, Sig. = .988 


-1475716. 036 
-668367.443 
-246340.039 

-6320097.900 
-107427.817 
-349959.199 

-11130.309 


(a) 


EM Covariances 


460547.6957 
3674.3092 591.388 
546.0299 368.310 534.703 


42624.4872 | 9107.731 | 8365.464 | 299822.460 
842.1275 307.921 445.735 7261.133 
217.3589 446.504 637.166 9782.202 

75.0659 16.040 14.732 528.017 


8. Little's MCAR test: Chi-Square = 10.469, DF = 23, Sig. = .988 


populatn 
density 


urban 
literacy 
calories 
lit male 
lit fema 
zcalorie 
a. Little's MCAR test: Chi-Square = 10.469, DF = 23, Sig. = 


(b) 


EM Correlations 


populatn 


(c) 


结果 13-9 EM Estimated Statistics 2 


结果 


414.276 
556.035 
12.788 





.988 


802.424 
17.227 





.92989 


“Regression Estimated Statistics” 部 分 给 出 的 是 以 回归 估计 方法 处 理 缺 失 值 后 各 数值 型 
变量 的 有 关 统 计量 。 其 中 包括 各 变量 的 均 数 、 方 差 协 方差 矩阵 和 相关 和 矩阵 CH 


见 结果 13-10). 
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Regression Estimated Statistics 
Regression Means? 
















a 
[4772588 | 203415 | 55.78 | 78358 | 278872 | 8181 | 7195 | 1515 ] 


a. Residual of a randomly chosen case is added to each estimate. 


(a) 


784.734 
17.102 | 1.14997 





Regression Covariances 


zcalorie 













populatn 
density 


21528625814.144 
-1815319.197 








456577.5079 





















































urban -626516.323 3608.7970 587.237 

literacy -218539.596 481.6385 371.701 543.138 

calories -5538952.941 60996.3371 | 9766.428 | 10859.974 | 450922.911 

lit male -49357 876 879.0231 294.924 411.996 8124.484 | 419.031 
lit fema -264515.721 295.1622 412.050 599.336 12146.015 | 528.690 


zcalorie -10226.741 65.1624 15.475 16.618 
8. Residual of a randomly chosen case is added to each estimate. 


(b) 


572.303 11.873 


Regression Correlation 


populatn 
density 


urban 
literacy 
calories 
lit male 
lit fema 
zcalorie 





8. Residual of a randomiy chosen case is added to each 
estimate. 
(c) 


结果 13-10 Regression Estimated Statistics 结果 
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第 H 3t logistic 回归 





在 第 10 章 介 绍 的 回归 模型 中 ， 应 变量 为 区 间 (定量 ) 变量 ， 并 且 理 论 上 要 求 其 服从 
正 态 分 布 等 LINE( 线 性、 独立 、 正 态 、 等 方差 ) 假定 条 件 。 本 章 所 介绍 的 logistic 回归 与 
第 10 章 十 分 类 似 , 它们 之 间 主 要 的 区 别 在 于 : 应 变量 的 类 型 不 同 。 通 过 一 组 预报 变量 〈 即 
一 组 自 变量 ， 也 称 为 解释 变量 或 协 变量 )， 采 用 logistic 回归 ， 可 以 预测 一 个 分 类 变量 每 一 
分 类 所 发 生 的 概率 。 应 变量 为 分 类 变量 ， 预 报 变量 可 以 是 区 间 变 量 ， 也 可 以 是 分 类 变量 ， 
还 可 以 是 区 间 与 分 类 变量 的 混合 。 如 果 自 变量 均 为 区 间 变 量 ， 则 这 类 数据 也 可 采用 第 17 
章 所 述 的 判别 分 析 等 方法 进行 分 析 ， 但 通常 情况 址 ，logistic 回归 对 预报 变量 〈 自 变量 ) 的 
假定 条 件 较 少 ， 所 以 logistic 回归 更 为 常用 。 

分 类 变量 可 分 为 有 序 分 类 变量 〈 即 有 序 多 项 分 类 变量 ) 和 无 序 分 类 变量 ， 而 无 序 分 类 
变量 也 叫 名 义 变量 ， 分 为 二 项 分 类 变量 和 无 序 多 项 分 类 变量 两 种 。 在 实际 工作 中 ， 应 变量 
为 分 类 变量 的 例子 很 多 ， 例 如 ， 经 某 种 方案 处 理 后 ， 病 人 的 治疗 结果 分 为 生存 与 死亡 ， 有 
效 与 无 效 (二 项 分 类 );， 本科 毕业 生 经 4 一 5 年 大 学 学 习 后 ， 对 大 学 生活 的 满意 程度 分 为 很 
不 满意 、 不 满意 、 满 意 、 很 满意 ， 结 果 变 量 满意 程度 为 有 序 分 类 变量 ， 不 同人 群 将 会 选择 
不 同 曲牌 〈 如 佳能 、 柯 达 、 富 士 、 索 尼 等 ) 的 数码 相机 ， 这 里 的 结果 变量 相机 品牌 为 无 序 
多 项 分 类 变量 。 下 面 就 根据 结果 变量 的 分 类 不 同 ， 分 别 介绍 二 项 分 类 logistic 回归 、 有 序 
分 类 logistic 回归 和 无 序 多 项 分 类 logistic 回归 模型 的 SPSS 实现 方法 。 


14.1 ”二 项 分 类 logistic 回归 


二 项 分 类 logistic 回归 是 其 他 logistic 回归 的 基础 ， 下 面 将 较 详细 介绍 这 种 回归 的 基本 
模型 、 参 数 解释 、 模 型 拟 合 效果 评价 等 方法 ， 然 后 介绍 SPSS 的 操作 步骤 及 选项 说 明 ; 最 
后 举例 说 明 SPSS 的 具体 实现 方法 及 SPSS 的 输出 结果 解释 。 
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14.1.1 方法 介绍 

1. 回归 模型 

令 应 变量 了 服从 二 项 分 布 ， 其 二 项 分 类 的 取 值 为 0, 1，7=1 的 总 体 概率 为 x(Y = D), 
M) m 个 自 变量 分 别 为 色 , 和 %，…,X 所 对 应 的 logistic 回归 模型 为 ， 

aY =1) = exp(Bo + B,X, + B,X; + --- + B,X,) 
1 + exp(Bo + B,X, + B,X, ++ Bs X54) 
1 
H 1+ exp | -(Bo + PXI 十 B.X, + -- + BnXm)| 


(14-1) 


或 

= = Bo + BiX, + B,X, +- B,X, (14-2) 
与 第 10 章 的 回归 模型 相同 ， By 为 截 距 〈 或 称 常数 项 )， B EX; (=12…， m) 对 应 

的 偏 回归 系数 (Partial Regression Coefficient， 简 称 回归 系数 )， exp (. ) 是 以 自然 对 数 

(2.71828) 为 底 的 指数 。 公 式 〈14-1) 有 两 个 等 式 ， 后 面 一 个 等 式 是 前 面 等 式 的 分 子 、 分 

母 同 除 以 分 子 


logitíz(Y = D] = In | 


O=exp(Bo + Xi + B2X2 ++ BnXm) 
后 获得 。O 即 优势 (0dds)， 后 面 将 要 详细 介绍 。 
公式 (14-2) 与 公式 (14-1) 可 以 相互 推导 ， 也 就 是 说 ， 公 式 (14-2) 与 公式 (14-1) 
相互 等 价 。 公 式 (14-1) 通常 被 称 为 logistic 回归 预测 模型 ， 将 某 一 个 体 的 自 变量 X; È 
(x Xy ) 代入 公式 《14-1)， 在 求 得 回归 参数 估计 值 ( bo,b; ) HERF, n 可 以 得 到 
该 个 体 概率 x(Y .= 1) 的 预测 值 (或 称 估计 值 ，p )， 即 
P= exp(bo + bixi + box? ++ bmXm) 
l+exp(bo +bix + box? +-+ + bmxm) 
_ Ó 
140 
4X (0420 与 第 10 章 的 一 般 回 归 模 型 更 相似 ， 即 等 式 左 侧 部 分 均 与 自 变量 X, £k 
性 关系 。 它 们 之 间 的 区 别 在 于 : 左 侧 不 是 应 变量 Y， 而 是 Y-1 的 概率 x(Y = D 的 logit 变 


换 值 ， 即 


(14-3) 


logit[z(Y = 0] = "| aY = D | 


1-z(Y-1D) 

式 中 ，ln(.) 为 自然 对 数 函数 符号 ， 因 为 logistic 回归 模型 实际 上 是 对 概率 x(Y = D 进行 了 
logit 变换 后 的 线性 回归 模型 , 所 以 通常 也 称 logistic 回归 模型 为 logit 模型 .通过 logit 变换 ， 
使 0 一 1 范围 取 值 的 x(Y = D ， 变 成 了 -oo~oo 范 围 取 值 的 logit 值 。 当 x(Y = D =0 时 ， 则 
有 
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EE zY-D | 
logitz(Y = 1)] = In = = z|- oo 


“aY = D=l FF, WA 
=1 
logitiz(Y = D] = In = =00 
这 样 一 来 ， 公 式 〈14-2) 的 左右 侧 取 值 便 有 相同 的 取 值 范围 了 。 


2. 回归 模型 参数 的 意义 及 其 解释 

在 一 般 回 归 模 型 中 ， 如 果 只 有 一 个 自 变 量 ， 那 么 自 变 量 与 应 变量 之 间 呈 直线 关系 ; 对 
于 二 项 分 类 logistic 回归 , 如 果 只 有 一 个 自 变量 , 那么 自 变 量 与 应 变量 了 的 概率 x(Y = 1D 之 
BE S 型 曲线 关系 。 

在 一 般 回归 模型 中 ， 通 过 最 小 二 乘法 求解 回归 参数 ， 而 在 二 项 分 类 logistic 回归 中 ， 
通过 最 大 似 然 估 计 方 法 求解 回归 参数 。 为 了 理解 二 项 分 类 logistic 回归 参数 的 意义 ， 首 先 
需要 理解 优势 (Odds) 与 优势 比 (Odds Ratios) HES. 

(OD 优势 与 优势 比 

大 多 数 人 认为 概率 是 定量 事件 出 现 可 能 性 大 小 的 “自然 ”方式 ， 其 取 值 范围 为 《0, 1)。 
如 果 事 件 肯定 不 发 生 ， 那 么 概率 为 0， 如 果 事 件 肯定 会 发 生 ， 那 么 概率 为 1。 另 一 种 代表 
事件 出 现 可 能 性 大 小 的 “自然 ”方式 是 优势 ， 其 取 值 范 围 为 〈0, co )。 

优势 在 职业 赌场 上 被 广泛 采用 ， 它 是 事件 期 望 出 现 的 次 数 (或 概率 ) 与 非 事件 期 望 出 
现 的 次 数 〈 或 概率 ) 之 比值 。 如 优势 为 $S， 意 味 着 事件 出 现 优势 大 小 〈 事 件 概 率 ) 是 非 事 
件 出 现 优势 大 小 《〈 非 事件 概率 ) 的 5 倍 ， 优势 为 /5， 意 味 着 事件 出 现 优 势 大 小 只 是 非 事 
件 出 现 优 势 大 小 的 VS 倍 。 

概率 与 优势 之 间 的 关系 可 以 采用 简单 的 公式 来 表达 ， 如 果 事 件 概率 用 (二 项 分 类 变 
量 的 非 事 件 概率 为 -表示 ， 优 势 用 OO 表示 ， 则 有 优势 | 





a Ë 事件 概率 
Óó-—P.. — (14-4) 
1-p 非 事 件 概率 
由 公式 (14-4) 可 得 到 概率 
Ó 
= (14-5) 
?P7146 


由 公式 《14-4) 和 公式 (14-5) 可 得 ， 优 势 小 于 1， 则 事件 概率 小 于 0.5， 优 势 大 于 1， 则 
事件 概率 大 于 0.5。 正 如 概率 的 下 限 值 ， 优 势 的 下 限 值 也 为 0; 但 和 概率 不 同 的 是 ， 概 率 的 
上 限 值 为 1， 而 优势 没有 确切 的 上 限 值 ( 见 表 14-1 和 图 14-1)。 


表 14-1 概率 与 优势 之 间 的 关系 


概率 p 0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00 





优势 O 0.00 0.11 0.25 0.43 0.67 1.00 1.50 2.33 4.00 9.00 co 


因为 与 概率 x 比较 ， 优 势 O 在 倍数 比较 方面 具有 更 多 优点 ， 所 以 有 时 必须 采用 这 一 指 


[o0 
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标 。 例 如 ， 我 获胜 概率 为 0.40， 你 获胜 概率 为 0.80， 那 么 你 获胜 概率 是 我 获胜 概率 的 两 倍 ; 
但 如 果 我 获胜 概率 为 0.80， 那 么 就 不 可 能 获得 你 获胜 概率 是 我 获胜 概率 的 两 倍 之 概率 。 如 
果 采 用 优势 ,就 不 会 存在 上 述 问 题 。 我 获胜 概率 为 0.80, 那么 我 获胜 优势 为 0.80/(1-0.80) =4， 
你 获胜 优势 是 我 的 两 倍 ,那么 你 获胜 优势 就 是 8。 根据 公式 (14-5), 可 将 优势 转换 回 概率 ， 
那么 你 获胜 概率 应 该 是 8/(1 十 8) =8/9=0.89。 








0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 
B 
图 14-1 概率 与 优势 之 间 的 关系 


优势 比 〈Odds Ratio, OR) 是 反映 两 个 二 项 分 类 变量 之 间 关 系 的 指标 ， 如 果 研 究 某 因 
素 的 暴露 是 否 对 某 种 疾病 的 发 生 有 影响 ( 见 表 142)， 总 的 暴露 优势 为 


(a * b)/(a + b+ c+ d) _ atb, 病例 的 暴露 优势 为 < + c) re = = 2, 对照 的 暴露 优势 














(c * a)/(a * b * c d) c + c/(a + 
y, b/b + d) 
为 = P ,病例 与 对 照 的 暴露 优势 比 OR = 2-2 - IR a, b, c, 4 分 别 为 30, 20, 
d/b d) d 
50, 50， 那 么 优势 比 OR - DOS 2 = 15, ARRERA ERN L5 倍 ， 或 者 说 病例 
暴露 优势 比 对 照 高 50%. 
表 14-2 ” 暴 器 某 因素 对 某 疾病 发 生 的 影响 
病例 对 照 合计 

暴露 a (30) b (20) a+b (50) 

未 暴露 c (50) d (50) c+d (100) 

fit a+c (80) b+d (70) a+b+c+d (150) 


(2) logistic 回归 模型 中 的 优势 比 
由 公式 〈14-2) 及 公式 (14-4) 可 得 : 


"| P |- logit(p) 
l- p 


=In(Ó) = by + bX, + b,X; +e + b,X,, (14-6) 
类 似 于 第 10 章 的 回归 系数 解释 ， 根 据 公式 (14-6)， 回 归 系 数 b，(j = L2, m) X 
示 其 他 自 变量 固定 不 变 的 情况 下 ， 某 一 自 变量 Xj 改变 一 个 单位 ，logit( p ) 或 对 数 优势 的 平 
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均 改 变量 。 
在 实际 工作 中 ，logistic 回归 不 是 直接 解释 回归 系数 b;， 而 是 解释 优势 比 。 优 势 比 被 用 


来 作为 效应 大 小 〔Effect Size) 指标 ， 度量 某 自 变量 对 应 变量 优势 影响 程度 的 大 小 。 某 一 
自 变 量 X) 对 应 的 优势 比 为 


OR; = exp(b;) (14-7) 
将 公式 (14-6) 等 号 两 边 同 时 取 以 自然 对 数 e 为 底 的 指数 ， 有 
优势 =O — exp(bo + b Xi - bo Xa b X) (14-8) 


优势 比 的 含义 是 : 在 其 他 自 变量 固定 不 变 的 情况 下 ， 某 一 自 变量 X 改变 一 个 单位 ， 
应 变量 对 应 的 优势 比 平均 改变 exp(b;) 个 单位 。 下 面 以 自 变 量 X, 对 应 的 优势 比 为 例 ， 说 明 
优势 比 的 含义 。 ,在 其 他 自 变量 不 变 的 情况 下 ， 令 x 改变 一 个 单位 ， 如 X 从 一 个 任意 实数 
a 改变 为 at1， 则 有 
OR, = Pho + bi x (a +) +b>X; ++ bmX m) 
Ó, exp(bo +h x a b X» b X4) 
自 变量 可 以 是 无 序 或 有 序 多 项 分 类 变量 、 二 项 分 类 变量 、 区 间 变 量 ， 上 面 举例 是 区 间 
变量 的 优势 比 含义 。 对 于 无 序 多 项 分 类 变量 ， 正 如 第 10 章 所 讲述 的 ， 需 要 哑 变 量化 。 如 
果 有 上 大 个 分 类 ， 需 要 产生 k-1 个 旺 变 量 ， 每 一 个 三 变量 的 优势 比 是 相对 于 参考 分 类 ， 应 变 
量 优 势 的 平均 改变 量 。 如 果 进 行 发 病 或 死亡 的 危险 因素 研究 ， 那 么 当 b5，> 0 ， 即 bj; 为 正 
值 时 ，OR; = exp(bj) 大 于 1， 说 明 该 因素 是 危险 因素 ， 当 5b，< 0， 即 bj; 为 负 值 时 ， 
OR; = exp(bj) 小 于 1， 说 明 该 因素 是 保护 因素 。 当 已 = 0， 即 OR) = exp(b;) = 1 时 ， 
说 明 该 因素 与 应 变量 无 关 。 
在 第 10 章 已 介绍 某 一 自 变量 X ; 的 总 体 回归 系数 B, 的 (1 — o) 置信 区 间 为 : 
b; + Zap SE(b;) (14-9) 
AB. SEQ) 是 回归 参数 估计 值 b; 的 渐 近 标准 误 ， 由 Newton-Raphson 迭代 的 信息 和 矩阵 
(Information Matrix) 的 逆 和 矩阵 中 的 对 角 元 素 开 方 获得 。 
该 自 变量 X , 的 总 体 优势 比 OR, 的 10001 - a) % 置 信 区 间 为 : | 
exp [b; + Z;/2SE(b;) | (14-10) 


=exp(b) 


(3) 标准 化 logistic 回归 系数 

正如 第 10 章 所 述 ， 由 于 不 同 的 变量 其 相应 的 度量 衡 单位 可 能 不 同 ， 不 能 采用 偏 回归 
系数 的 绝对 值 大 小 来 比较 各 个 自 变 量 的 相对 作用 大 小 ， 为 此 需要 引入 标准 化 logistic 回归 
系数 这 一 概念 。 

应 该 注意 的 是 : 标准 化 logistic 回归 系数 只 是 一 个 相对 大 小 值 ， 主 要 通过 它 的 绝对 值 
大 小 来 比较 不 同 自 变量 对 模型 的 贡献 大 小 ， 而 不 用 于 构建 回归 模型 ， 构 建 回归 模型 需要 采 
用 一 般 的 回归 系数 。 

标准 化 回归 系数 5 的 估计 值 六 可 采用 以 下 公式 
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bi, =b;(S; /Sy)=b;S; /(nI N3) =0.5513b;S; (14-11) 
来 计算 ， 式 中 bj 是 一 般 的 回归 系数 ， 即 偏 回 归 系 数 ，5; 为 第 j 自 变量 的 标准 差 。， Sy 是 随 
机 变量 了 的 标准 差 ，logistic 随机 变量 了 的 标准 差 为 x/V3 =1.8138 , 
以 上 是 SAS 软件 计算 标准 化 logistic 回归 系数 的 方法 , SPSS 软件 中 没有 提供 计算 这 一 
系数 的 选项 ， 需 要 通过 Transform-* Compute...23k£8. 
3. 回归 模型 的 假设 检验 
OD 全 局 性 的 假设 检验 
回归 模型 建立 后 , 需要 对 整个 模型 的 拟 合 情 况 做 出 判断 , 即 检验 Ho: B, = B, = … = 
B, = 0; Hy: 有 不 全 为 0。 进行 全 局 性 假设 检验 ， 在 第 10 章 的 一 般 线 性 回归 模型 拟 合 
时 ,采用 了 方差 分 析 ， 而 在 logistic 回归 模型 拟 合 中 ， 可 采用 似 然 比 (Likelihood Ratio) 检 
验 、 得 分 (Score) 检验 和 Wald 检验 ， 其 中 以 似 然 比 检验 最 常用 。 
似 然 比 统计 量 是 两 个 模型 的 最 大 对 数 似 然 值 之 差 的 负 二 倍 , 有 时 也 叫 偏差 (Deviance )。 
设 模型 1 (引入 变量 较 少 ) 的 最 大 对 数 似 然 值 为 mn Zo ， 模 型 2 (引入 变量 较 多 ) 的 最 大 对 
数 似 然 值 为 In 1 ， 则 似 然 比 检验 统计 量 可 表示 为 ; 
Xir —2(1n Lo — In L) = (-2LL;) — (—2LL,) (14-12) 
该 统计 量 服 从 卡 方 分 布 ， 其 自由 度 为 自 变 量 个 数 的 改变 量 。 在 全 局 性 的 假设 检验 中 ， 模 型 
1《〈 即 -2Z7o 对 应 模型 ) 中 没有 自 变 量 ， 只 有 常数 项 。 
似 然 〈Liklihood?， 即 可 能 性 或 概率 〈Probability)， 和 其 他 概率 一 样 ， 其 取 值 范围 为 
(0,1), logistic 回归 的 似 然 函 数 志 是 每 一 观察 对 象 的 似 然 函数 贡献 量 的 乘积 ， 即 似 然 函数 


L-][ó»*a-5"*. iz12,-.n (14-13) 


i=l 


AP, i 为 观察 对 象 ( 个 体 ) 编号 ， T] 38544 1 到 个 体 的 连 乘 积 。 为 应 变量 ,其 


i=l 


取 值 为 0 或 1。 pi 为 预测 概率 ， 它 可 由 相应 个 体 的 自 变量 Xa,Xi2,…,Xin 值 及 其 相应 参数 
fs THE b; (j 90,1, m) 通过 公式 〈14-3) 获得。 将 以 上 似 然 函 数 工 两 边 取 自然 对 数 有 : 


I L=LL=`'Y,In f; € (1 Y,)In(1- ñ;)] (14-14) 
izl 


In L 为 对 数 似 然 (Log Likelihood, LL) 函数 ， 六 .表示 从 个 体 1 到 个 体 n 的 连 加 。LL 的 取 


iz 
值 范围 为 〈-co, 0)， 而 -2LL 的 取 值 范围 为 (0, co )。 
获得 得 分 (Score) 检验 结果 不 需要 和 迭代， 相对 似 然 比 检 验 更 快速 ， 所 以 SPSS 用 这 种 
检验 作为 逐步 logistic 回归 选取 变量 的 标准 ， 检 验 每 一 个 变量 以 及 所 有 变量 加 入 模型 后 是 
否 有 意义 。 得 分 检验 同样 服从 卡 方 分 布 。 
(2) 单个 自 变量 的 假设 检验 
在 第 10 章 的 一 般 线 性 回归 分 析 时 ， 对 某 一 个 自 变量 X 的 检验 采用 1 统计 量 
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t) = bj/SE(b))， 自 由 度 为 n 一 m1， 检 验 参 数 B; 是 否 为 0。 其中, n 为 观察 个 体 总 数 ，m 


为 模型 中 自 变量 个 数 。 
而 在 logistic 回归 中 ， 某 一 个 自 变 量 X ; 的 检验 采用 Wald 统计 量 
Xa; = [5;/SE(bj)] ， 自 由 度 为 1 (14-15) 
检验 参数 B; 是 否 为 0。 如 果 拒 绝 Ho: PB; =0， 则 表明 该 自 变量 Xj 对 于 模型 的 作用 有 统计 
学 意义 。 





也 可 采用 有 与 无 菜 一 个 自 变 量 X ;的 -2LL 改变 量 作为 卡 方 统计 量 , 来 检验 自 变量 X; 有 
无 统计 学 意义 ， 特 别 当 回 妇 系数 的 值 很 大 时 ， 后 者 尤其 有 用 。 

(3) 模型 拟 合 优 度 的 评价 

由 于 决定 系数 (Coefficient of Determination) R? 反映 了 模型 中 的 所 有 自 变量 解释 应 变 
量 了 变异 的 百分比 ， 其 值 越 接近 于 1， 模 型 中 的 自 变量 预测 应 变量 了 的 能 力 越 好 ， 所 以 在 
回归 模型 中 常 采用 决定 系数 R? 或 调整 决定 系数 来 评价 模型 拟 合 的 好 坏 。 

在 logistic 回归 模型 分 析 中 ， 也 可 采用 类 似 指 标 反 映 模型 拟 合 的 好 坏 。 此 外 ， 
Hosmer-Lemshow 拟 合 优 度 检验 及 ROC 曲线 分 析 也 可 用 来 评价 logistic 回归 模型 。 下 面 逐 
一 介绍 这 些 方法 。 

° 决定 系数 R? 

在 SPSS 的 “Model Summary ”输出 结果 中 ,给 出 了 Cox and Snell 决定 系数 和 Nagelkerke 
决定 系数 ，Cox and Snell 决定 系数 公式 为 : 

-2LLs l 


Rà; -| 
—2Lla 
Rn. n 为 观察 个 体 数 ， -2Z7o 为 只 有 常数 项 的 -2 IRURE, -2LL 为 包含 所 有 自 变 
量 的 模型 -2 倍 对 数 似 然 值 。Cox and Snell 决定 系数 的 缺点 是 最 大 值 小 于 1， 这 样 使 得 解释 
变 得 困难 。Nagelkerke 决定 系数 进一步 修改 Cox and Snell 决定 系数 ,使 R? 的 取 值 在 0 到 1 
之 间 。Nagelkerke 决定 系数 公式 为 : 
- [2t rl 


20 Ês _ _ IAL] 
R&s 的 最 大 可 能 取 值 ”1-(2LIo) 
但 必须 注意 ， 因 为 二 项 分 类 logistic 回归 模型 成 功 事 件 的 概率 越 接近 0.5， 方 差 越 大 ， 越 远 
离 0.5 则 方差 越 小 ， 所 以 这 里 SPSS 所 给 出 的 决定 系数 不 像 一 般 回 归 模 型 ， 它 不 是 真正 意 
义 的 决定 系数 ， 而 是 伪 决 定 系数 (Pseudo-R-Square)， 解 释 时 只 能 作为 模型 拟 合 优 度 的 参 

考 。 

e Hosmer-Lemshow 拟 合 优 度 检验 

通过 将 观察 对 象 分 成 8 组 (通常 =10)， 数 据 整理 为 gx2 列 联 表 ， 采 用 Pearson 卡 方 
检验 获得 Hosmer-Lemshow 统计 量 ， 比 较 每 组 不 同 应 变量 分 类 (Y=0，1) 的 实际 观察 频数 
(Observed, O) 与 预测 期 望 频数 (Expected，E) (由 logistic 回归 模型 预测 获得 )， 检 验 统 





(14-16) 





2 
2 Res 


N (14-17) 
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计量 服从 自由 度 为 g-2 的 卡 方 分 布 。 检验 结果 无 统计 学 意义 ( P>0.05 )， 表 示 模 型 预测 值 
与 观察 值 之 间 的 差异 无 统计 学 意义 ， 从 而 意味 着 模型 较 好 。 

根据 公式 (14-3) 获得 的 预测 概率 5 ， 将 观察 对 象 分 成 g 组。 分 类 有 2 种 方法 : 方法 
1 是 根据 预测 概率 的 大 小 将 观察 对 象 等 分 成 g 组 。 如 分 成 10 组 ， 则 预测 概率 小 于 0.1 为 第 
一 组 ，[0.1, 0.2] 为 第 二 组 ，…，[{0.9, 1.0] 为 第 10 组 。 对 于 e 组 中 的 每 一 组 ， 再 根据 实际 观 
察 结果 (应 变量 Y=0, 1) 分 类 为 二 类 。SPSS 不 按 方法 1 分 类 ， 而 是 按 方法 2 进行 分 类 ， 
其 方法 2 是 将 预测 概率 从 小 到 大 排序 ， 规 定 每 一 组 的 观察 例 数 基 本 相等 ， 如 100 个 观察 
个 体 分 成 10 组 ， 则 每 组 为 10 人 ; 此外， 如 果 观 察 个 体 的 所 有 自 变量 值 相 同 ， 则 妇 类 为 同 
一 组 ， 所 以 在 SPSS 中 组 数 @ < 10. 。 如 在 两 个 二 项 分 类 自 变量 与 应 变量 之 间 建 立 logistic 
回归 模型 ， 则 此 时 最 多 组 数 g=4; 如 在 3 个 二 项 分 类 自 变量 与 应 变量 之 间 建 立 logistic 回归 
模型 ， 则 此 时 最 多 组 数 g=8。 采 用 Hosmer-Lemshow 拟 合 优 度 检 验 一 般 要 求 观察 个 体例 数 
较 大 ， 如 样本 例 数 大 于 100。 

e° ROC 曲线 评价 模型 的 拟 合 优 度 

以 公式 〈14-3) 获得 的 预测 概率 户 作 为 检验 变量 ， 应 变量 了 作为 “ 金 标准 ” 按 第 12 
章 介绍 的 ROC 曲线 分 析 方 法 可 获得 ROC 曲线 下 面积 、ROC 曲线 图 等 有 关 结 果 。ROC H 
线 下 面积 越 大 ， 拟 合 效果 越 好 。SPSS 可 简单 获得 预测 概率 5， 并 可 和 原始 分 析 数 据 保存 
在 一 起 。 

4. 其 他 有 关 问 题 

(1) 分 类 表 及 有 关 评 价 指标 

首先 将 预测 概率 p; > 0.5 划 归 为 “阳性 ”， 并 记 为 1，pP; <0.5 划 归 为 “阴性 ”并 记 为 0。 
然后 与 实际 形成 分 类 表 (Classification Table)， 查 看 由 logistic 回归 模型 判断 的 结果 是 否 
与 实际 情况 相符 ， 结 果 如 表 14-3 所 示 。 


表 14-3 ”模型 预测 结果 与 实际 情况 的 一 致 性 


EER CY) 
预测 (PB) — 合 计 
0 1 
0 a b a+b 
1 c d ctd 
合计 a+c b+d a+b+c+d 
由 表 14-3 可 获得 : 
、 十 
。 正 确 预测 百分率 = 一 2+4 x100% 。 
a+b+c+d 


e 灵敏 度 (Sensitivity，Sen)， 也 称 为 真 阳 性 率 (True Positive Rate，TPR)， 是 实际 分 
类 了 =1 个 体 中 ， 预 测 结果 也 为 1 的 概率 。Sen = TPR=d/(b+d). 

e 特异 度 (Specificity，Spe)， 也 称 为 真 阴性 率 (True Negative Rate，TNR)， 是 实际 
分 类 Y-0 个 体 中 ， 预 测 结果 也 为 0 的 概率 。Spe = TNR =a (a+c). 
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e 漏诊 率 ， 也 称 为 假 阴 性 率 (False Negative Rate，FNR)， 是 实际 分 类 Y=1 个 体 中 ， 
预测 结果 却 为 0 的 概率 。1-Sen = FNR =b/(b+d). 
e 误诊 率 ， 也 称 为 假 阳 性 率 (False Positive Rate，FPR)， 是 实际 分 类 Y20 个 体 中 ， 预 
测 结果 却 为 1 的 概率 。1-Spe = FPR =c/(a+c)。 
(2) 预测 概率 直方 图 
预测 概率 直方 图 也 叫 “ 分 类 图 ”或 “观察 分 类 与 预测 概率 图 ”， 当 单 击 SPSS 的 logistic 
回归 对 话 框 中 的 Options 按钮 ， 并 选择 “Classification plots” Ft, SPSS 可 输出 这 种 图 形 ， 
可 用 此 图 形 来 直观 评价 logistic 回归 预测 的 正确 性 。 此 图 横 轴 是 y=1 所 对 应 的 预测 概率 ( 取 
值 从 0 到 1), 纵 轴 是 观察 分 类 频数 ,图 中 为 观察 分 类 的 1 与 0, 因 此 ,如 果 在 预测 概率 p =0.25 
处 有 1 个 “1”，6 个 “0”， 则 表示 这 7 个 个 体 被 预测 为 “1” 的 概率 只 有 0.25， 因 此 logistic 
回归 模型 将 它们 均 分 类 为 “0” 这 7 个 个 体 实际 上 除了 1 个 应 变量 了 等 于 “1” 外 ,其 余 6 
个 均 有 了 等 于 “0”。 
可 从 如 下 两 方面 分 析 预 测 概率 直方 图 。 
e 图 形 呈 U 型 而 不 是 正 态 分 布 。 如 果 图 形 呈 U 型 分 布 , 表示 预测 有 较 好 的 区 分 度 (此 
时 ROC 曲线 下 面积 较 大 ， 接 近 于 1)， 如 果 图 形 呈 正 态 分 布 ， 表 示 预 测 有 较 差 的 区 
分 度 〈 此 时 ROC 曲线 下 面积 较 小 ， 接 近 于 0.5)， 模 型 拟 合 较 差 。 
e 错误 分 类 应 该 较 少 。 图 形 左边 的 “1” 为 假 阴 性 ， 右 边 的 “0” 为 假 阳 性 。 检 查 图 形 
还 可 发 现 模型 对 分 类 较 难 个 体 〈 预 测 概率 接近 于 0.5) 的 分 类 情况 。 
(3) 分 类 自 变量 的 编码 方法 
SPSS 对 分 类 自 变 量 进行 旺 变 量 编码 的 方法 有 Indicator, Simple, Difference, Helmert, 
Repeated, Polynomial 6 种 ， 不 同 的 编码 方法 将 获得 不 同 的 回归 系数 。 其 默认 的 方法 是 
Indicator。 
FALARA CJ) 为 例 ， 说 明 Indicator 旺 变 量 编码 方法 。 假 如 职业 分 类 为 工 、 农 、 商 、 
学 、 兵 5 类 ， 则 可 定义 比 总 分 类 数 少 1 个 ， 即 5-1= 4 个 哑 变 量 ， 分 别 记 为 1, Jo J3, Jao 
编码 方法 见 表 14-4。 


表 14-4 了 哑 变 量 编码 方法 


ME 
职业 CJ 

A Ja Ja J4 
I 1 0 0 0 
农 0 1 0 0 
商 0 0 1 0 
学 0 0 0 1 
兵 0 0 0 0 





如 果菜 个 体 的 职业 为 农民 ， 则 将 且 , J2, J3, J4 分别 编码 为 0, 1, 0, 0; 如 果 某 个 体 的 职业 
为 军人 ， 则 将 J, J2, J3, J4 分 别 编码 为 0, 0, 0,0. ZF J, Ja, J3, J4 这 4 个 哑 变 量 分 别 代表 
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以 “ 兵 ” 为 参照 的 工 、 农 、 商 、 学 职业 。 如 果 J 对 应 的 回归 系数 为 bj, BWA b, 就 是 其 他 
自 变量 取 固 定 值 时 ， 相 对 于 “ 兵 ” 职业 为 农民 的 个 体 影响 应 变量 的 对 数 优 势 。 






Lp ENG 在 回归 模型 中 ， 无 论 某 吗 变量 (WJ, JaJa Ja) 有 无 统计 学 意 

半 ” 义 ， 哑 变量 都 是 同时 出 现 或 不 出 现 。 菜 个 哑 变 量 的 统计 学 意义 只 是 相对 于 参 
有 照 组 而 言 ， 为 了 检验 这 个 分 类 变量 ( 如 职业 ) 有 无 意义 ， 可 采用 “有 与 无 ” 
这 些 哑 变量 的 -27Z 改变 量 作为 卡 方 统计 量 , 哑 变 量 的 个 数 作为 自由 度 , 根据 
卡 方 分 布 确定 其 检验 结果 。SPSS 输出 结果 中 提供 了 哑 变 量 整体 的 Wald 卡 方 
值 、 自 由 度 及 其 相应 的 P 值 ， 可 以 帮助 判断 哑 变 量 整体 ( 职业 ) 是 否 均 有 统 
计 学 意义 。 


(4) 残 差 分 析 

SPSS 进行 logistic 回归 分 析 时 ， 最 主要 的 残 差 是 标准 化 残 差 〈Standardized Residual) 
Zi ， 其 计算 公式 为 ， 

z=- n (14-18) 
VÊ- P.) vÊ:A-P:) XPiQ— p) 

每 一 个 观察 个 体 均 可 计算 一 个 标准 化 残 差 值 ， 该 值 的 绝对 值 一 般 不 宜 大 于 1.96， 如 果 
有 15 以 上 个 体 的 |Zi| >1.96， 则 应 考虑 采用 其 他 模型 进行 分 析 。 请 参见 本 小 节 第 5 部 分 中 
关于 离 群 点 的 讨论 。 

使 用 较 少 的 其 他 残 差 还 有 logit 残 差 、 学 生化 残 差 、 偏 离 残 差 (Deviance Residuals), 
非 标 准 化 残 差 (Unstandardized (raw) Residuals)， 这 些 残 差 在 SPSS 中 均 可 得 到 。 

(5) logistic 回归 中 的 假定 条 件 

logistic 回归 之 所 以 流行 ， 是 因为 这 种 统计 学 方法 克服 了 多 重 线性 回归 的 许多 限制 条 
件 。 

logistic 回归 并 不 假设 应 变量 与 自 变量 之 间 呈 线性 关系 ， 它 可 以 处 理 非 线性 效应 问题 ， 
因为 模型 左 侧 就 是 非 线性 logit 连接 函数 。 正 如 多 重 线性 回归 一 样 ， 在 logistic 回归 方程 的 
右边 也 可 以 添加 交互 效应 项 、 乘 守 项 等 。 

应 变量 不 必 呈 正 态 分 布 〈 但 假定 它 的 分 布 属于 正 态 、Poisson、 二 项 、gamma 等 指数 分 
MENM) 对 于 每 一 个 自 变 量 水 平 ， 应 变量 不 必 是 等 方差 ， 即 logistic 回归 没有 方差 齐 性 
的 假定 ; logistic 回归 也 不 假定 残 差 项 服从 正太 分布 , 不 要 求 自 变量 为 随机 独立 的 区 间 变 量 。 
但 logistic 回归 仍 有 下 列 假定 条 件 。 

。 根据 实际 意义 编码 

为 了 logistic 回归 系数 解释 的 方便 , 通常 将 应 变量 了 感 兴趣 的 一 类 编码 为 1， 另 一 类 则 
编码 为 0: 1 与 0 分 类 是 相互 排斥 的 。 例 如 ， 为 了 研究 若干 指标 对 疾病 发 生 是 否 有 影响 ， 
则 将 发 病 编码 为 1， 不 发 病 编码 为 0。 这 样 ， 获 得 的 自 变量 回归 系数 为 正 值 ， 则 该 自 变量 
为 发 病危 险 因素 ， 它 与 应 变量 之 间 为 正 的 相关 关系 ， 为 负 值 ， 则 该 自 变量 为 保护 因素 ， 它 
与 应 变量 之 间 为 负 的 相关 关系 。 


| 365 





DI 与 统计 分 析 — 


e 假定 残 差 独立 

如 果 是 试验 前 后 研究 、 配 对 研究 、 时 间 序 列 研究 ， 则 每 一 个 研究 个 体 提供 了 多 个 重复 
测量 观测 值 。 这 种 情况 下 不 能 按 一 般 的 logistic 回归 方法 处 理 ， 应 该 采用 条 件 logistic 回归 
等 其 他 方法 。 

e 应 变量 的 对 数 优势 与 自 变量 间 呈 线性 关系 f 

logistic 回归 不 像 一 般 线性 回归 ， 它 不 要 求 应 变量 与 自 变 量 之 间 呈 线性 关系 ,但 它 要 求 
应 变量 的 对 数 优 势 (HD logit É) 与 自 变量 呈 线 性 关系 ， 当 这 一 假定 被 违背 时 ，logistic [Hl 
归 将 低估 应 变量 与 自 变量 之 间 的 联系 。 解 决 线性 缺乏 的 一 种 方法 是 将 连续 型 协 变量 离散 化 
为 几 个 类 别 ， 然 后 将 它们 作为 分 类 变量 进行 分 析 。 

° 无 多 重 共 线性 

正如 一 般 线性 回归 一 样 ， 如 果 某 自 变 量 与 另 一 自 变量 之 间 有 较 强 的 线性 关系 ， 那 么 在 
logistic 回归 中 同样 会 出 现 多 重 共 线性 (Multicollinearity) 问题 。 随 着 自 变 量 彼此 之 间 的 相 
关 性 增加 ，logistic 回归 系数 的 标准 误 将 过 度 增 加 ， 检 验 效能 降低 〈 即 二 类 错误 6 增加 )。 
多 重 共 线 性 不 改变 系数 估计 值 ， 仪 仅 改 变 它们 的 可 靠 性 (由 标准 误 度量 )， 高 的 标准 误 标 
志 着 可 能 存在 多 重 共 线性 。 其 他 有 关 多 重 共 线 性 的 讨论 见 第 10 章 。 

° 无 离 群 点 

正如 一 般 线性 回归 一 样 ， 离 群 点 (Outliers) 可 能 明显 影响 回归 结果 。 通 过 分 析 标 准 化 
RE, 可 以 发 现 离 群 点 ， 一般 认为 标准 化 残 差 大 于 2.58 (ZE 0.01 检验 水 准 下 ) 的 个 体 为 离 
群 点 ， 可 采用 去 掉 离 群 点 或 单独 分 析 这 些 离 群 点 的 方法 观察 离 群 点 的 影响 。 在 二 项 分 类 
logistic 回归 对 话 框 中 ， 单 击 “Save” 按 钮 ， 可 获得 标准 化 残 差 (Standardized Residuals). 

。 大 样本 

和 一 般 线性 回归 不 同 ，logistic 回归 采用 最 大 似 然 估计 C Maximum Likelihood 
Estimation, MLE) 获得 参数 估计 值 ， 而 不 是 一 般 最 小 二 乘法 。MLE 依赖 于 大 样本 渐 近 正 
态 性 质 ， 这 意味 着 在 样本 含量 较 少 情况 下 ， 获 得 估计 值 的 可 靠 性 降低 ， 标 准 误 较 高 。 在 极 
端 情况 下 ， 相 对 变量 个 数 ， 样 本 含量 很 小 可 能 导致 参数 估计 不 收敛 。 如 果 参 数 估计 值 异常 
大 ， 则 很 可 能 是 由 于 样本 含量 不 足 所 致 。 一 般 认 为 每 一 自 变量 需要 15—20 例 以 上 的 观察 
个 体 ， 总 例 数 应 在 60 例 以 上 。 


14.1.2 SPSS 操作 选项 说 明 


á 前 列 腺 癌 细 胞 是 否 扩散 到 邻近 的 淋巴 结 , 是 选择 治疗 方案 的 重要 依据 。 
为 了 了 解 淋 巴 组 织 中 有 无 瘤 转移 ， 通 常 的 做 法 是 对 病人 实施 剖腹 术 探 查 ， 并 在 显微镜 下 检 
查 淋巴 组 织 。 为 了 不 手术 而 又 能 型 清 淋巴 结 的 转移 情况 ，Brown (1980 年 ) 在 术 前 检查 了 
53 例 前 列 腺 癌 患 者 ， 分 别 记 录 了 年 龄 (AGE)、 酸 性 磷酸 酯 酶 (ACID) 两 个 连续 型 变量 ， 
和 射线 (X_RAY)、 术 前 探 针 活检 病理 分 级 (GRADE)、 直 肠 指 检 肿 瘤 的 大 小 与 位 置 (STAGE) 
三 个 分 类 变量 。 后 三 个 变量 均 按 0, 1 赋值 ， 其 值 1 表示 阳性 或 较 严重 情况 ，0 表示 阴性 或 
较 轻 情况 。 还 有 手术 探查 结果 变量 NODES, 1 表示 有 淋巴 结 转移 ，0 表示 无 淋巴 结 转移 。 


366 | 








资料 见 表 14-5 〈 见 配 书 光盘 中 的 数据 文件 data14-1.xls 或 data14-1.sav )。 


表 14-5 53 例 接受 手术 的 前 列 腺 癌 患 者 淋巴 结 转移 情况 


No. X RAY GRADE STAGE AGE ACID NODES|No. X RAY GRADE STAGE 





1 0 l 1 
2 0 0 1 
3 1 0 0 
4 0 l 0 
5 0 0 0 
6 0 1 1 
7 0 0 0 
8 0 0 0 
9 0 0 0 
10 0 0 0 
11 0 1 0 
12 0 0 1 
13 0 1 1 
14 0 0 0 
15 0 0 0 
16 1 0 0 
17 0 1 1 
18 0 0 0 
19 0 1 1 
20 1 0 0 
21 0 0 0 
22 1 1 1 
23 0 0 0 
24 0 1 1 
25 0 0 0 
26 0 0 0 


ik: 资料 摘自 Le CT. Biometrics 1997;53:998-1007。 表 中 ACID 已 扩大 100 f£. 
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53 
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52 
67 
56 
61 
64 
58 
65 
57 
50 
67 
67 
57 
45 
46 
51 
60 
56 
50 
56 
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68 


. logistic 回归 EE NEA 


ACID NODES 


76 0 
78 0 
83 0 
95 0 
98 0 
102 0 
187 0 
48 1 
49 1 
51 1 
56 1 
67 1 
67 1 
67 1 
70 1 
70 1 
72 1 
76 1 
78 1 
81 1 
82 1 
82 1 
84 1 
89 1 
99 1 
126 1 


令 二 项 分 类 应 变量 为 NODES， 二 项 分 类 自 变 量 有 X_RAY，GRADE 和 STAGE， 连 续 
型 自 变量 有 AGE 和 ACID. logistic 回归 分 析 的 SPSS 基本 数据 格式 见 图 14-2。 


* 指定 二 分 类 logistic 回归 过 程 操作 提示 


Analyze 
Regression 
Binary logistic…. 
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File Edit View Deta Transform Analyze Graphs Utilities Window Help 
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图 14-2 数据 格式 


%à logistic 回归 对 话 框 操作 提示 ( 见 图 14-3 ) 


Dependent [>] NODES =i& A EE: NODES 

JBCovariates[*] X RAY, GRADE, ”一 选 入 自 变量 : X RAY, GRADE, STAGE, AGE, 
STAGE, AGE, ACID ACID 

“Method 下 拉 列 表 mitt iit A RE 马 进 入 模型 的 多 种 方法 


Enter， 强 连 引 入 法 ， 这 是 SPSS 的 默认 选项 ， 即 将 所 选 自 变量 全 面 放 在 模型 之 中 

Forward:Conditional, ( 条 件 似 然 比 ) 向 前 逐步 法 

Forward:LR, ( 似 然 比 ) 向 前 逐步 法 

Forward:Wald, ( Wald ) 向 前 逐步 法 

Back:Conditional, ( 条 件 似 然 比 ) 向 后 逐步 法 

Back:LR, ( 似 然 比 ) 向 后 逐步 法 

Back:Wald, ( Wald ) 向 后 逐步 法 

® Selection Variable 框 他 选 入 一 个 变量 ,根据 该 变量 的 值 ， 通 过 右 侧 的 

Rule… 按 钮 ,建立 一 个 选择 条 件 , 可 以 只 对 部 
分 数据 进行 分 析 


Dependent 
[enos — 


Block 1 of 1 
| 











图 14-3 logistic 回归 对 话 框 
此 外 ， 还 有 Categorical, Save, Options 三 个 重要 按钮 。 
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— logistic 回归 ESENES 


(1) Categorical… 按 钮 

当 变量 不 是 连续 型 变量 ， 而 是 分 类 变量 时 ， 采 用 此 按钮 计算 机 可 自动 对 这 类 变量 进行 
恶变 量化 。 在 输出 结果 中 ， 会 提示 所 选 每 一 分 类 变量 的 具体 编码 情况 ， 解 释 结果 时 应 特别 
注意 这 些 信息 ， 因 为 不 同 编码 方法 将 会 得 到 不 同 的 回归 系数 。 

在 logistic 回归 对 话 框 中 单 击 Categorical… 按 钮 ， 弹 出 Define CategoricalVariables 对 话 


框 ， 如 图 14-4 所 示 。 








图 14-4 logistic 回归 分 类 协 变 量 对 话 框 


> 操作 选项 说 明 
他 Covariates =A) E dM dX A aX 
-Categorical Covariates ”一 选 入 自 变量 中 的 名 义 分 类 变量 


"ÜContrast 下 拉 式 列表 框 ” 一 该 列表 框 给 出 了 各 种 哑 变 量 编码 的 方法 .其 中 , Indicator 
| 为 系统 默认 方法 ， 该 方法 以 最 后 一 个 分 类 (Last) 或 第 
一 个 分 类 (First) 为 参照 分 类 ， 其 他 分 类 和 该 分 类 进行 
对 照 ,参见 本 小 节 第 3 部 分 。 此 外 还 有 Simple, Difference, 

Helmert, Repeated, Polynomial, Deviation 等 选项 


(2) Save... 按 钮 
在 logistic 回归 分 析 中 ， 有 很 多 与 每 一 个 观察 个 体 有 关 的 重要 信息 ， 可 以 通过 这 个 按 


钮 保存 下 来 ， 如 预测 概率 、 残 差 等 。 
单 击 logistic 回归 对 话 框 中 的 Save... 按 钮 ， 弹 出 Save 对 话 框 ， 如 图 14-5 所 示 。 


Logistic Regression: Save 


f DíBeta(s) 
Export model information to XML file 





Iv. Include the covariance matrix 





图 14-5 logistic 回归 Save 对 话 框 
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BDN Siom — 


> 操作 选项 说 明 

Predicted Values 复 选 框 

Probabilities 一 保存 每 一 个 体 的 预测 概率 

-Group membership 号 保存 根据 预测 概率 判断 所 得 的 每 一 个 体 的 类 
别 

Influence 复 选 框 

“Cook’s 号 保存 每 一 个 体 的 Cook 值 

Leverage values 号 保存 每 一 个 体 的 杠杆 值 

“©DfBeta(s) 保存 别 除 了 该 观察 个 体 后 , 回归 系数 户 值 的 变 
化 值 

Residuals 复 选 框 

-Unstandardized 宇 保存 每 一 个 体 的 非 标准 化 残 差 

"BLogit 一 保存 每 一 个 体 的 Logit 残 差 

-Studentized 一 保存 每 一 个 体 的 学 生化 残 差 

-Standardized 呈 保 存 每 一 个 体 的 标准 化 残 差 

Deviance 宇 保存 每 一 个 体 的 Deviance fX X 


Export model information to XML file: 将 模型 信息 储存 为 XML 网 页 文件 
"&Include the covariance matrix 一 将 协 方 差 矩 阵 信 息 也 保存 在 XML 网 页 文件 中 


(3) Options... 按 钮 
通过 这 一 按钮 ， 可 获得 Hosmer-Lemshow 拟 合 优 度 检验 结果 和 预测 概率 分 类 图 。 
单 击 logistic 回归 对 话 框 中 的 Options... 按 钮 ， 弹 出 Options 对 话 框 ， 如 图 14-6 所 示 。 


Statistics and Plots 

Ív Classification plots T^ Correlations of estimates 
iv Hosmer-Lemeshow goodness-of-fit Í Iteration history 

Iv. Casewise listing of residuals m Efor eB [35 — 


Enty: [05 “Removat [10 - 


Iv Include constant in model 





图 14-6 logistic 回归 Options 对 话 框 


> 操作 选项 说 明 
Statistics and Plots 复 选 框 
Classification plots 宇 显示 应 变量 实际 分 类 与 模型 预测 分 类 之 间 关 系 的 分 
类 图 
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"óHosmer-Lemeshow : 号 显示 Hosmer-Lemeshow 拟 合 优 度 检验 结果 
goodness-of-fit 
-Casewise listing of residuals 一 显示 每 一 观察 个 体 ( 在 下 方 选择 All cases) 或 标准 化 
残 差 大 于 某 值 的 个 体 ( 在 下 方 选择 Outliers outside [2] 
std.dev. )， 在 结果 中 输出 预测 概率 值 、 应 变量 实际 分 
类 与 模型 预测 分 类 结果 、 非 标准 化 残 差 值 (Resid ) 及 


标准 化 残 差 值 ( ZResid ) 

-Correlations of estimates 吓 输 出 参数 估计 值 (包括 常数 项 ) 之 间 的 相关 系数 矩阵 

“OIteration history 一 输出 迭代 过 程 中 每 一 步 的 参数 估计 值 和 -2 倍 的 对 数 
似 然 值 

“CI for exp(B):95% 一 输出 优势 比 OR 值 的 100(1-G ) % 置 信 区 间 ， 默 认 置 信 
度 为 95% 

Display 单 选 钮 

"8 At each step cm dip h SAN GEAR P #— 44828 60 VE I3 8: 

8 At last step = W ih k ERU ROS — AER 65 ERR S À 

Probability for Stepwise 选项 

Entry 号 规定 引入 变量 进入 模型 的 检验 水 准 ， 默 认为 =0.05 

Removal 号 规定 将 变量 从 模型 中 别 除 的 检验 水 准 ,默认 为 a =0.10 

"Classification cutoff 号 指定 产生 本 小 节 第 1 部 分 所 提 “ 分 类 表 ” 的 预测 概率 
界 断 值 , 默认 值 为 0.5( 即 <0.5 为 一 类 ,其 他 为 另 一 类 ) 

“Maximum Iteration 一 指定 最 大 允许 迭代 次 数 ， 默 认 值 为 20 


Include constant in model 全 说 明 模 型 是 否 包含 常数 项 ,默认 为 包含 。 如 果 不 需要 
模型 中 含有 常数 项 ， 那 么 可 以 将 前 面 的 复 选 框 内 的 
m Am 


14.1.3 ”实例 与 结果 解释 


为 了 详细 说 明 二 项 分 类 logistic 回归 的 应 用 ， 下 面 列举 三 个 不 同 的 例子 。 

1. 淋巴 结 转移 的 影响 因素 分 析 

数据 见 表 14-5。X_RAY，GRADE，STAGE，AGE，ACID 为 自 变量 X, NODES 为 应 
变量 Y， 需 要 分 析 淋巴 结 转移 (Y=1) 5 BAER X; G=1,2,3,4,5) 之 间 的 关系 。 

(1) SPSS 数据 格式 

SPSS 数据 格式 见 图 14-2， 即 5 个 自 变量 及 1 个 应 变量 各 占 一 列 。 

(2) SPSS 操作 步骤 

° 指定 二 分 类 logistic 回归 过 程 操作 提示 


与 统计 分 


Analyze 

Regression 

Binary logistic--- 

o 定义 logistic 回归 对 话 框 操作 提示 

Dependent » NODES 

Covariates > X RAY, GRADE, STAGE, AGE, ACID 


e 定义 logistic 回归 Save 对 话 框 操作 提示 〈 见 图 14-5) 
“OM Probabilities 


DM Group membership 
DM Standardized 


e 定义 logistic 回归 Options 对 话 框 操作 提示 〈 见 图 14-6). 
SF Classification plots 
OM Hosmer-Lemeshow goodness-of-fit 


DM Casewise listing of residuals 
BM CI for exp(B): p5% 


(3) SPSS 输出 结果 及 解释 
结果 14-1 给 出 了 纳入 分 析 的 观察 个 体 数 , 缺失 的 观察 个 体 数 , 未 纳入 分 析 的 观察 个 体 
数 等 基本 信息 。 


Unweighted Cases? 


Selected Cases Included in Analysis 


Missing Cases 
Total 


Unselected Cases 





Total 





a. If weight is in effect, see classification table for the total number of cases. 


结果 14-1 输出 的 基本 信息 
结果 14-2 给 出 了 应 变量 的 原 数 据 编码 ， 以 及 计算 分 析 时 编码 的 信息 。 





Dependent Variable Encoding 


Original Value Internal Value 






结果 14-2 ”编码 信息 





logistic 回归 EJEA 


结果 14-3 给 出 了 模型 中 只 有 常数 项 而 无 自 变量 时 ， 正 确 预测 百分率 为 62.3%。 这 就 是 
说 ， 原 数据 的 53 个 观察 个 体 中 ， 无 淋巴 结 转移 者 (NODES=0) 有 33 人 ， 有 淋巴 结 转移 
者 (NODES=1) 有 20 人 ， 如 果 每 一 个 体 均 分 类 到 无 淋巴 结 转移 者 (NODES=0)， 则 可 以 
得 到 正确 预测 百分率 为 62.3%. 


Block 0: Beginning Block 
Classification Table*^ 


Predicted 
NODES Percentage Correct 
Step 0 NODES 0 33 100.0 
1 20 .0 
Overall Percentage 62.3 


a. A.Constant is included in the model. 
b. The cut value is .S00 


结果 14-3 Classification Table 
结果 14-4 给 出 了 模型 中 只 有 常数 项 而 无 自 变量 时 的 回归 参数 及 其 检验 结果 。 这 里 的 B 


DT 2 = 57 “0.500775 = 0.501 , S.E. 为 参数 的 渐 近 标准 误 , 由 Newton- 


Raphson 先 代 产生 的 信息 矩阵 之 逆 和 矩阵 的 对 角 元 素 开 方 获得 。Waild 卡 方 值 = (0.500775/0.283378)? 
=3.123 Sig.=0.077 为 Wald 卡 方 值 3.123 在 自由 度 为 1 时 对 应 的 检验 PP 值 。 















实际 上 = logit(f) = In 


Variables in the Equation 


一 Tv ie Tae] 
ET | m | 26 [aum í [oen [o ] 


结果 14-4 ”模型 中 只 有 常数 项 而 无 自 变量 时 的 回归 参数 及 其 检验 结果 


结果 14-5 为 单 变量 分 析 结 果 。 在 将 每 个 变量 放 入 模型 之 前 ， 采 用 得 分 检验 方法 ,检验 
茶 一 自 变量 与 应 变量 之 间 有 无 联系 。 由 该 结果 可 见 ， 可 初步 认为 在 0.05 检验 水 准 下 ， 变 量 
X RAY, GRADE, STAGE 与 应 变量 之 间 的 联系 有 统计 学 意义 ，AGE，ACID 与 应 变量 之 
间 的 联系 无 统计 学 意义 。 

结果 14-5 也 给 出 了 X_RAY GRADE, STAGE, AGE, ACID 5 个 自 变 量 全 部 放 入 模型 后 
的 得 分 检验 结果 ， 得 到 Score y? =19.451 ， 自 由 度 df5， 相 应 P 值 为 0.002， 说 明 模 型 全 局 


性 检验 有 统计 学 意义 。 






Variables not in the Equation 


Step 0 Variables 





Overall Statistics 


结果 14-5 ” 单 变量 分 析 结果 
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SPSS 与 统计 分 析 — 


结果 14-6 给 出 了 模型 系数 的 全 局 性 检验 (Omnibus Tests) 结果 ; 自 变 量 筛选 方法 是 
Enter 法 ( 即 所 有 自 变量 放 入 模型 ).Step 表示 每 一 步 与 前 一 步 相 比 的 似 然 比 检验 结果 , Block 
表示 Block 1 与 Block 0 相 比 的 似 然 比 检验 结果 , Model 表示 上 一 个 模型 与 当前 模型 的 似 然 
比 检验 结果 . 对 于 Enter 法 , 这 3 种 检验 的 结果 相同 , 即 似 然 比 y? -22.126. df=5, P<0.001, 
说 明 至 少 有 一 个 自 变量 具有 统计 学 意义 。 


Block 1: Method = Enter 
Omnibus Tests of Model Coefficients 


[e= Dx 





结果 14-6 ”模型 系数 的 全 局 性 检验 结果 


结果 14-7 给 出 了 Cox and Snell 决 定 系数 和 Nagelkerke 决定 系数 分 别 为 34.1% 和 46.5%。 
—-2LL, 二 48.126， 因 为 结果 14-6 中 的 似 然 比 六 =22.126， 由 公式 (14-12) 可 获得 只 有 常数 项 
的 -2LLs—70.252.. 


Model Summary 


Cox & Snell R Nagelkerke R 
— likelihood Square Square 


a. "L terminated at iteration number 5 because 





parameter estimates changed by less than .001. 


结果 14-7 Model Summary 结果 


. Hosmer-Lemeshow 拟 合 优 度 检验 得 到 检验 P 值 为 0.652， 表 明 由 预测 概率 获得 的 期 望 
频数 与 观察 频数 之 间 差 异 无 统计 学 意义 , 即 模型 拟 合 较 好 。 结果 14-8 中 的 卡 方 值 是 对 结果 
14-9 中 数据 计算 Pearson FOIE, df-10-2-8. £55 14-9 由 预测 概率 分 组 后 整理 获得 。 

Hosmer and Lemeshow Test 


Se C Ca L s T s |] 


结果 14-8 Hosmer and Lemeshow Test 结果 


结果 14-10 与 结果 14-3 的 不 同 之 处 在 于 , 模型 中 已 引入 了 5 个 自 变 量 , H 5 个 自 变量 
获得 的 预测 概率 宇 0.5， 则 个 体 被 预测 分 类 为 1， 小 于 0.5 则 预测 为 0， 由 此 得 到 正确 预测 
百分率 为 77.4%， 比 没有 自 变量 只 有 常数 项 时 ， 提 高 了 77.4%-62.3%=15.1%。 

此 外 ， 由 结果 14-10 得 知 ， 灵 敏 度 =65.00%， 特 异 度 =84.85%， 漏 诊 率 =35.00%， 误 诊 
率 =15.15%。 
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logistic 回归 A 


Contingency Table for Hosmer and Lemeshow Test 


NODES = 0 NODES = 1 





Observed Expected Observed Expected 











5 
5 
5 
3 
3 
3 
4 
3 
1 
1 








Ob Q th UA tA tA wm A CA UA 


结果 14-9 ”由 预测 概率 分 组 后 整理 获得 的 结果 


Classification Table? 








Percentage Correct 





Step0 NODES 0 28 5 
1 





Overall Percentage 


a. The cut value is .500. 


结果 14-10 Classification Table 


结果 14-11 中 蕴涵 着 丰富 信息 。 
首先 ， 由 结果 14-11 可 以 建立 公式 (14-3) 的 logistic 预测 概率 模型 ， 即 

exp(0. 062 + 2. 045X_RAY + 0.761GRADE + 1. 564STAGE - 0. 069AGE+0.024ACID) 
1 + exp(0. 062 + 2. 045X. RAY + 0. 761GRADE + 1. 564STAGE - 0. 069AGE+0.024ACID) 


其 次 ， 可 以 检查 所 有 变量 对 回归 模型 的 贡献 有 无 统计 学 意义 ， 由 每 一 个 自 变量 对 应 的 





Predicted 
NODES 
Observed 0 1 








84.8 
65.0 
71.4 











P {Ë (sig) 可 见 ， 在 0.05 检验 水 准 下 ， 变 量 X RAY 和 STAGE 有 统计 学 意义 ，ACID 在 
检验 水 准 附近 ， 而 变量 GRADE 和 AGE 无 统计 学 意义 。 即 和 射线 (X RAY) 和 直肠 指 检 
(STAGE) 对 发 现 前 列 腺 癌 淋 巴结 转移 有 统计 学 意义 ， 酸 性 磷酸 酯 酶 (ACID) 在 统计 学 意 
义 的 边缘 ， 而 活检 病理 分 级 (GRADE) 和 患者 年 龄 (AGE) 预测 前 列 腺 癌 淋 巴结 转移 的 


作用 较 小 。 
第 三 ， 由 每 个 自 变量 对 应 的 exp(B )， 可 获得 每 个 自 变量 对 应 的 优势 比 OR 值 及 其 95% 


的 置信 区 间 。 例 如 ,年 龄 的 OR 估计 值 =exp(b)=0.933， 表 示 在 其 他 自 变量 值 固定 的 情况 下 ， 
年 龄 每 增加 1 岁 ， 相 应 的 淋巴 结 转移 优势 比 的 自然 对 数值 为 0.933， 也 就 是 说 ， 年 龄 每 增 
加 1 岁 ， 相 应 的 淋巴 结 转移 优势 改变 0.033 倍 ， 表 明 随 着 年 龄 的 增加 ， 淋 巴结 转移 的 机 会 
有 减少 的 趋势 (为 保护 因素 )， 但 经 检验 P =0.231>0.05， 说 明 这 种 趋势 无 统计 学 意义 。 又 
如 变量 X RAY 对 应 的 OR hiit füizexp(b)27.732, 95908] EEKE (1.589, 37.6150, ¥ 
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与 统计 分 
示 在 其 他 自 变 量 值 固 定 的 情况 下 , XX 射 线 诊断 阳性 者 的 淋巴 结 转移 优势 约 是 X 射 线 阴性 者 
的 8 倍 。 


Variables in the Equation 
95.096 C.I.for EXP(B) 





Lower Upper 


























a. Variable(s) entered on step 1: X RAY, GRADE, STAGE, AGE, ACID. 


结果 14-11 Variables in the Equation 信息 


由 结果 14-12 可 见 ， 在 53 个 观察 个 体 (33 个 “0” 个 体 ，20 个 “1” 个 体 ， 结 果 中 每 
4 个 数字 代表 1 个 个 体 ) 中 ， 大 多 数 “0” 个 体 在 预测 概率 0.5 的 左边 , “1” 个 体 在 预测 概 
率 0.5 的 右边 ， 这 是 分 类 正确 的 情况 ， 但 预测 概率 0.5 左边 也 有 7 个 “1” 个 体 ， 右 边 也 有 
5 个 “0” 个 体 ， 这 是 分 类 错误 的 情况 。 分 类 基本 上 时 器 型， 左右 数字 较 多 ， 而 中 间 数 字 较 














少 。 
Step number: 1 

Observed Groups and Predicted Probabilities 
4 +00 + 
00 | 
00 | 
00 | 
3 +00 1 1 1 + 
|00 1 1 1 | 
> loo 1 1 1 | 
š 00 1 1 1 | 
£ 2 +000 0 11 0 1 1H 1 1 + 
° 0000 0 11 0 1 11 1 1 | 
= [000 0 11 0 1 n 1 1 | 
| 000 0 1 0 1 11 1 1 | 
1 + 000000010000 00100 0 00 0000 11 11100111 + 
000000010000 00100 0 00 0000 11 1110 11 | 
| 000000010000 00100 0 00 000 0 11111001 | 
000000010000 00100 0 — 00 0000 111110011 | 
Predicted 4— * 4—-— — — 

Prob: 0 .25 . 


5 .75 1 
Group:  000000000000000000000000000000111111111111111111111111111111 
Predicted Probability is of Membership for 1 
The Cut Value is .50 
Symbols: 0 - 0 
1-1 
Éach Symbol Represents .25 Cases. 


结果 14-12 ”观察 分 组 与 预测 概率 分 类 图 
结果 14-13 可 见 ， 编 号 为 22, 35, 47 的 观察 个 体 学 生化 残 差 大 于 2， 其 标准 化 残 差 的 
绝对 值 在 2.3 以 上 ， 按 0.05 检验 水 准 ， 这 些 个 体 为 离 群 点 。 


(40 其 他 补充 结果 及 解释 
前 面 采用 Save.…. 按 钮 ， 已 将 每 一 个 体 的 预测 概率 、 预 测 类 别 、 标 准 化 残 差 保存 在 原 数 
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logistic 回归 ESUE3 


据 中 ， 可 根据 这 些 数据 获得 其 他 有 意义 结果 。 


Casewise List" 
Selected Observed Predicted Temporary Variable 
22 S .868: -.868 -2.560 
35 S .157 .843 2.320 
EI IANE 


a. S= Selected, U = Unselected cases, and ** = Misclassified cases. 
b. Cases with studentized residuals greater than 2.000 are listed. 


结果 14-13” 离 群 点 信息 

















* ROC 曲线 分 析 

在 菜单 中 选择 Graphs 一 ROC Curve..., 以 预测 概率 (PRE_1) 为 检验 变量 (Test Variable), 
应 变量 NODES 为 金 标准 〈 即 状态 变量 ，State Variable)， 状 态 变量 值 为 1， 并 将 Display 
中 的 选项 选 上 ( 见 图 14-7)， 单 击 OK 按钮 ， 即 可 获得 ROC 曲线 〈 见 图 14-8)， 曲 线 下 面 
积 为 0.845 (95% 置 信 区 间 为 《0.740, 0.951))， 标 准 误 为 0.054。 


ROC Curve 


Nl ROC Curve 


> 
o 


Iest Variable: 


CJ ®© Predicted probability [F 


State Variable: 


Sensitivity 


° 
= 


| ® Predicted group [PGR. 


| > Normalized residual [ZF C] $ NODES 


Value of State Variable: [1 
Display 
F ROC Curve 
ÍV With diagonal reference line 
IV. Standard error and confidence interval 0.0 


[v Ioerdnaie ponis of the HOC Cure os 0:0 











r =N 一 一 
0.2 0.4 0.6 0.8 1.0 








1-Specificity 
图 14-7 ROC 曲线 对 话 框 图 14-8 ROC 曲线 
° 观察 分 组 与 预测 概率 点 图 操作 提示 


“Graphs 

“©Scatter/Dot... 

“Simple Dot 

“©X-Axis Variables [>] PRE_1 一 以 预测 概率 ( PRE_1 )25 X $h X: #( X-AxisVariable ) 
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DN 与 统计 分 析 — 


Columns [P] NODES c yA & RE NODES 为 列 
-OK ( 见 图 14-9) 


该 操作 可 获得 观察 分 组 与 预测 概率 点 图 〈 见 图 14-10)。 


P XRAY [X RAY] 

P GRADE [GRADE] 

Ê STAGE [STAGE] 

4? AGE [AGE] 

ACID [ACID] 

P Predicted group [PG... 
9 Normalized residual ... 








图 14-9 ”点 图 对 话 框 


NODES 























TO si 一 88 8 sag. 0: 
0.0 0.4 0.6 0.8 1.0 


0.0 02 0.4 0.6 0.8 1.0 02 
Predicted probability Predicted probability 


图 14-10 观察 分 组 与 预测 概率 点 图 


| 图 14-10 类 似 于 结果 14-12， 从 另外 一 个 角度 展示 了 观察 分 组 与 预测 概率 分 类 之 间 的 关 
系 。 
SAS 软件 可 输出 logistic 标准 化 回归 系数 ， 如 果 想 在 SPSS 中 获得 这 一 结果 ， 则 可 用 
Analyze 一 Descriptive Statistics 一 Descriptives… 获 得 各 变量 标准 差 ， 如 本 例 自 变 量 X_RAY, 
GRADE, STAGE, AGE, ACID 的 标准 差分 别 为 0.4548, 0.4894, 0.5047, 6.1682, 26.2015. 4R H5 
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logistic 回归 ES [4 将 | 


公式 (14-11), 可 以 得 到 这 些 变量 对 应 的 标准 化 回归 系数 为 0.5128, 0.2054, 0.4352, -0.2355， 
0.3517, 说 明 5 个 变量 对 应 变量 贡献 大 小 依次 为 X_RAY, STAGE, ACID, AGE, GRADE, 其 
计算 结果 与 SAS 软件 输出 结果 相同 。 

总 之 ， 由 5 个 自 变量 获得 了 logistic 回归 概率 预测 模型 ， 该 模型 拟 合 尚 可 。 其 中 变量 
X RAY 和 STAGE 有 统计 学 意义 , ACID 在 检验 水 准 附近 , 而 变量 GRADE 和 AGE 无 统计 
学 意义 。 为 了 模型 的 简洁 性 ， 可 采用 逐步 回归 方法 进行 模型 变量 的 筛选 。 如 将 回归 方法 由 
“Enter” 改 为 “Forward:LR” 后 ， 有 意义 的 变量 X RAY 和 STAGE 被 选 入 模型 ， 而 其 他 变 
量 排除 在 模型 之 外 《〈 见 结果 14-140. 


Variables in the Equation 


| 95.0% C.Lfor EXP(B) 
Exp(B) Lower Upper 





X RAY 
Constant 
X RAY 
STAGE 
Constant 


























a. Variable(s) entered on step 1: X RAY. 
b. Variable(s) entered on step 2: STAGE. 


结果 14-14 ”参数 估计 值 及 其 假设 检验 
由 结果 14-14 可 建立 预测 模型 为 : 
exp(-2.045 + 2.119X_RAY + 1.588STAGE) 


P = 1 expC2045+ 2.119X RAY + 1.588STAGE) 


2. 频数 表 资 料 

前 面 实例 的 格式 是 logistic 回归 资料 的 一 般 格 式 ， 但 如 果 样 本 例 数 较 大 ， 且 自 变 量 均 
为 分 类 变量 时 ， 常 将 资料 编排 成 频数 表 的 形式 ， 请 看 下 面 的 例子 。 

为 了 研究 苯 麻 疹 史 (1 为 有 ，0 为 无 ) 及 性 别 〈1 为 男 ，0 为 女 ) 与 慢 
性 气管 炎 (1 为 病例 ，0 为 对 照 ) 的 关系 ， 某 研究 的 调查 结果 如 表 14-6 所 示 〔〈 见 配 书 光 盘 
中 的 数据 文件 data14-2.xls 或 data14-2.sav)， 试 用 logistic 回归 进行 统计 分 析 。 

(1) SPSS 数据 格式 

SPSS 数据 格式 见 图 14-11， 即 2 个 自 变量 、1 个 应 变量 及 频数 各 占 一 列 。 





图 14-11 X 14-6 的 SPSS 数据 格式 
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DN 与 统计 分 析 


表 14-6 ”慢性 气管 炎 的 影响 因素 
性 a 慢性 气管 炎 


ák 
= 
Ñ 
m 


© o — =— O O — 一 
一 = O == O m Q e 


(2) SPSS 操作 步骤 

° 定义 频数 操作 提示 

Data 

Weight Cases... 

Weight case by 

Frequency Variable| > ] freq 

e° 指定 二 分 类 logistic 回归 对 话 框 操作 提示 
Analyze 

Regression 

Binary logistic… 

。 定义 logistic 回归 对 话 框 操作 提示 


Dependent [>] 慢性 气管 炎 
"BCovariate »] FARA, Ms 


e ¿E X logistic 回归 Save 对 话 框 操作 提示 


“Save 

M Probabilities 

DM Group membership 
E Standardized 


0 


== = = = o ° o 


* 定义 logistic 回归 Options 对 话 框 操作 提示 


Option... 

DM Classification plots 

OM Hosmer-Lemeshow goodness-of-fit 
OM Casewise listing of residuals 
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频 


__logistic 回归 ESEE 


M CI for exp(B): p5% 


(3) SPSS 输出 主要 结果 及 解释 
结果 14-15 表明 莹 麻疹 史 与 慢性 气管 炎 有 一 定 的 关系 ， 其 OR =2.126， 即 有 苔 麻疹 史 
者 发 生 慢性 气管 炎 优 势 是 无 苯 麻 疹 史 者 的 2 倍 。 性 别 对 慢性 气管 炎 影 响 不 大 P > 0.05 ), 
可 从 模型 中 剔除 。 
pw rani in the Equation 


95.0% C.L for EXP(B) 
Exp(B) Lower Upper 





Step 1 FRE 8. m 2.126 1.281 3.528 
性 别 75 1.005 714 1.416 
Constant .140 


a. Variable(s) entered on step 1: FRA, FE 





结果 14-15 SPSS 输出 结果 


.流行 病 学 研究 中 的 常见 资料 
et 吉 果 常 写成 表 14-7 形式 ， 每 层 共 有 n 个 观察 个 体 ， 其 中 患者 r 
例 ， 对 照 c 例 ; 在 队列 研究 中 ， 每 层 共有 个 观察 人 年 ， 其 中 死亡 + 例 ， 等 等 。 
为 了 研究 饮酒 (平均 每 天 大 于 80ml 时 Alcohol 二 1， 否 则 Alcohol=0) 
与 食管 癌 的 关系 ， 有 人 对 200 个 食管 癌 病 例 和 775 个 对 照 做 了 观察 ， 为 了 将 年 龄 (Age) 
作为 混杂 因素 ， 所 以 表 14-7 中 也 给 出 了 按 每 10 岁 分 组 的 年 龄 组 组 中 值 ( 见 配 书 光盘 中 的 
数据 文件 data14-3.xls 或 data14-3.sav)。 


表 14-7 ”饮酒 与 食管 癌 的 关系 


年 龄 〈 岁 ) 饮酒 病例 数 对 照 数 合计 
Age Alcohol Case Control Total 
30 1 1 9 10 
30 0 0 106 106 
40 1 4 26 30 
40 0 3 164 169 
50 1 25 29 54 
50 0 21 138 159 
60 1 42 27 69 
60 0 34 139 173 
70 1 19 18 37 
70 0 36 88 124 
80 1 5 0 5 
80 0 8 31 39 


资料 来 源 : 余 松林 编 . 医学 现场 研究 中 的 统计 分 析 方法 ，1985，p225 
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(1) SPSS 数据 格式 
创建 一 个 应 变量 Y， 令 病例 Y=1， 对 照 Y=0， 病 例 数 与 对 照 数 下 方 的 频数 采用 freq 表 
示 ，Age 和 Alcohol 两 个 变量 各 为 1 列 。 表 14-7 的 SPSS 数据 格式 见 图 14-12。 





图 14-12 表 14-7 的 SPSS 数据 格式 


(2) SPSS 操作 步骤 

° 定义 频数 操作 提示 

Data 

Weight Cases... 

Weight case by 

Frequency Variable[ > |] freq 

e 指定 二 分 类 logistic 回归 对 话 框 操作 提示 
Analyze 


Regression 
Binary logistic--- 


e 定义 logistic 回归 对 话 框 操作 提示 


Dependent [>] y 
"BCovariates ^] Age, Alcohol 


e ¿E Y. logistic 回归 Save 对 话 框 操作 提示 


OM Probabilities 
OMI Group membership 
OM Standardized 


e ¿E Y. logistic 回归 Options 对 话 框 操作 提示 


M Classification plots 
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OM Hosmer-Lemeshow goodness-of-fit 
AM Casewise listing of residuals 

DM CI for exp(B): [95% 

(3) SPSS 输出 主要 结果 及 解释 


Variables in the Equation 


95.0% C.Lfor EXP(B) 
| MAMAR se L iome L ue 
Step 1° .007 71.338 1.064 1.048 1.079 
alcohol 1.780 90.522 .000 5.930 4.110 8.556 
Constant -5.331 138.205 .000 .005 


a. Variable(s) entered on step 1: age, alcohol. 


结果 14-16 SPSS 输出 结果 


结果 14-16 表明 年 龄 具有 一 定 的 混杂 效果 ， 但 OR 较 小 ， 只 有 1.064。 在 控制 了 年 龄 因 
素 的 混杂 效应 〈 即 保持 年 龄 固定 不 变 ) 情况 下 ， 饮 酒 是 食管 癌 的 危险 因素 ，OR =5.930， 
即 饮酒 每 天 平均 大 于 80ml 个 体 ， 得 食管 癌 的 优势 是 饮酒 小 于 80m 个 体 的 6 倍 。 


4. 自 变 量 为 名 义 变量 的 实例 

D 5/144] 为 了 研究 孕妇 顺产 与 否 (1= 顺 产 ，0= 其 他 ) 的 影响 因素 ， 研 究 者 收集 
了 1402 名 产妇 的 年 龄 ( 岁 )、 身 高 Cm), WE (kg)、 职 业 (1= 工 人 、 农 民 等 体力 人 员 ， 
2= 管 理 人 员 与 知识 分 子 等 脑力 人 员 ，3= 商 人 ，4= 其 他 ) 和 文化 程度 (0= 文 盲 ，1= 小 学 ，2= 
中 学 ，3= 大 学 ) 等 指标 。 该 例 的 “职业 ” 自 变 量 为 无 序 分 类 变量 ， 需 要 哑 变 量化 。SPSS 
可 以 自动 哑 变 量化 , 通过 该 例 拟 说 明 SPSS 的 哑 变 量化 ,以 及 有 关 哑 变量 结果 解释 的 问题 。 

(1) SPSS 数据 格式 

SPSS 数据 格式 见 图 14-13( 见 配 书 光盘 中 的 数据 文件 data14-4.xls 或 datal4-4.sav)， 即 
5 个 自 变 量 及 1 个 应 变量 各 占 一 列 。 













3 
2 
了 
2 
2 
U 
2 
2 





14-13 1402 例 孕 产妇 SPSS 数据 格式 


(2) SPSS 操作 步骤 
° 指定 二 分 类 logistic 回归 对 话 框 操作 提示 


Analyze 
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Regression 
Binary logistic… 


e 定义 二 分 类 logistic 回归 对 话 框 操作 提示 


Dependent [>] 顺产 否 
JBCovariate[»] — 年龄， 身高， 人 体重， 职业， 文化 程度 


。 定义 logistic 回归 Categorical Variables 对 话 框 操作 提示 


“BCategorical Covariates [>] 职业 
e 定义 logistic 回归 Save 对 话 框 操作 提示 


AM Probabilities 


OM Group membership 


“EJ Standardized 


e 定义 logistic 回归 Options 对 话 框 操作 提示 


OM Classification plots 


M Hosmer-Lemeshow goodness-of-fit 
M Casewise listing of residuals 


ATI CI for exp(B): B5% 
(3) SPSS 输出 结果 及 解释 


与 前 面 实例 输出 结果 不 同 的 是 ， 在 输出 结果 14-17 中 ， 指 出 了 分 类 变量 的 每 一 类 别 观 
察 个 体例 数 ， 同 时 给 出 了 每 个 哑 变 量 的 编码 方法 。 对 于 4 分 类 的 职业 ， 计 算 机 自动 产生 3 
个 哑 变 量 ， 即 哑 变 量 职 业 (1)、 职 业 〈2)、 职 业 (3)。 当 某 一 个 体 的 职业 为 工人 或 农民 时 ， 
则 职业 (1)、 职 业 (2)、 职 业 (3) 分 别 编码 为 1, 0, 0; 当 某 一 个 体 的 职业 为 商人 时 ， 则 哑 
变量 职业 (1)、 职 业 (2)、 职 业 (3) 分 别 编码 为 0, 0, 1. 


Categorical Variables Codings 


Parameter coding 
Frequency 











结果 14-17 哑 变 量 编码 信息 


每 一 个 自 变量 与 应 变量 之 间 是 否 有 联系 的 单 因 素 分 析 表 明 , 在 0.05 检验 水 准 下 , 年 龄 、 
身高 、 体 重 3 个 自 变量 有 统计 学 意义 ， 而 文化 程度 在 临界 检验 水 准 附近 ， 职 业 无 统计 学 意 
X. (P=0.510)。 哑 变量 职业 (1)、 职 业 (2)、 职 业 (3) 均 无 统计 学 意义 ， 表 示 体 力 、 脑 
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力 、 商 业 人 员 的 孕妇 顺产 与 “其 他 ”职业 《参照 分 类 ) 相 比 无 差别 ( 见 结果 14-18). 


Variables not in the Equation 


Step 0 Variables 





34 —< om — m Ó o — — 


Overall Statistics 





结果 14-18 Variables not in the Equation 信息 
由 结果 14-19 可 见 ， 决 定 系数 仅 为 3% 一 4%， 相 对 较 低 。 
Model Summary 
-2 Log Cox & Snell R Nagelkerke R 
likelihood Square Square 
[1 


a. Estimation terminated at iteration number 4 because 





parameter estimates changed by less than .001. 


结果 14-19 Model Summary 信息 


与 上 述 单 变量 分 析 的 假设 检验 结果 相同 , 年 龄 、 身 高 、 体 重 3 个 自 变 量 有 统计 学 意义 ， 
而 文化 程度 在 临界 检验 水 准 附 近 ， 职 业 无 统计 学 意义 〈 见 结果 14-20). 
如 果 要 写 预测 概率 模型 ， 应 将 旺 变 量 职 业 (1)、 职 业 (2)、 职 业 (3) 放 入 模型 中 ， 
而 不 是 将 “职业 ” 放 入 ; 如 果 要 看 “职业 ”有 无 统计 学 意义 ， 则 只 看 “职业 ”， 本 例 的 职 
业 Wald 卡 方 检验 值 为 3.968， 自 由 度 为 3，P 值 为 0.265>0.05， 表 明 该 变量 在 模型 中 无 统 
计 学 意义 。 
Variables in the Equation 


95.0% C.Lfor EXP(B) 
Exp(B) Lower Upper 
1.056 
.936 
1.032 





1.194 
1.314 
1.009 
.833 
1055.864 


























a. Variable(s) entered on step 1: 年 龄 、 身 高 、 体 重 、 职 业 、 文 化 程度 


结果 14-20 Variables in the Equation 信息 
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SPSS 与 统计 分 析 — 


由 该 例 的 观察 分 组 与 预测 概率 分 类 图 可 见 ， 图 呈正 态 形状 ， 因 此 ， 尽 管 模型 中 有 3 个 
变量 有 意义 ， 但 模型 拟 合 却 不 理想 。 

以 预测 概率 (PRE_1) 为 检验 变量 ,“ 顺 产 否 ”为 金 标准 ， 进 行 ROC 曲线 分 析 ， 得 到 
ROC 曲线 下 面积 为 0.606 (95% 和 置信 区 间 为 (0.576, 0.636), WE] 14-14)， 标 准 误 为 0.015, 
P=0.000。 尽 管 样本 含量 较 大 ， 检 验 结果 有 统计 学 意义 ， 但 因 ROC 曲线 下 面积 较 低 ， 接 近 
于 0.5， 因 此 模型 拟 合 较 差 。 











ROC Curve 
1.0 
0.8 
> 0.6 
T 
= 
[7] 
= 
o 
N 04 
02 
0.0 I T T. I 
0.0 0.2 04 0.6 0.8 1.0 
1-Specificity 


Diagonal segments are produced by ties. 


图 14-14 ROC 曲线 


14.2 条件 logistic 回归 


控制 混杂 因素 有 两 种 办 法 ， 一 种 方法 是 采用 配对 方法 收集 数据 ， 即 当 得 到 某 一 研究 病 
例 后 ， 选 择 一 名 或 多 名 条 件 相 近 的 非 病 例 作 为 对 照 ， 另 一 种 方法 是 根据 所 搜集 数据 中 某 些 
混杂 因素 (如 性 别 、 年 龄 )， 事 先 规定 这 些 因素 相似 的 条 件 ， 对 每 一 病例 ， 配 上 一 名 或 多 
名 这 些 因素 相似 的 非 病 例 作 为 对 照 。 一 个 对 子 可 以 只 有 1 个 病例 和 1 个 对 照 ， 这 种 配对 称 
1:1 配对 ， 当 病例 很 罕见 时 ， 常 采用 1 个 病例 ， 多 个 对 照 ， 此 时 称 为 1:m 配对 ， 常 用 的 m 
一 般 小 于 等 于 4， 不 同 的 对 子 ，m 可 以 不 同 ， 还 可 设计 产品 配对 ， 即 不 同 对 子 的 病例 与 对 
照 个 数 均 可 不 同 ， 这 种 设计 增加 了 收集 资料 的 灵活 性 。 

对 于 配对 设计 资料 ， 如 果 应 变量 为 二 项 分 类 变量 ， 则 可 采用 条 件 logistic 回归 方法 进 
行 数 据 分 析 。 
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14.2.1 方法 介绍 


分 析 这 类 资料 时 ， 需 要 将 一 个 配对 对 子 看 作 一 个 整体 〈 即 一 个 层 ，strata)， 并 给 予 编 
号 。 假 设 共 有 s 层 (i=1…,s )， 每 一 层 有 ni 个 病例 ，m; 个 对 照 Cjzlegnyn + m; ) 
CI am 配对 )， 危 险 因素 共有 p 个 ， 即 Xi: X, ， 上 =1…,p。 把 第 i 层 、 第 j 个 观察 对 
象 的 第 个 指标 记 为 Xn， 因 此 第 i 层 的 观察 结果 条 件 概 率 为 : 


X eH) 
ja 


bi = (14-19) 


Lohan. ente 
jd 


其 中 ， 分 子 为 该 层 病例 患 病 风险 ， 而 分 母 为 该 层 所 有 病例 和 对 照 的 患 病 风险 之 和 。 如 果 是 
l:m 配对 ， 则 有 





bi = exp Xa 27 BoXap) (14-20) 
exp( iX a +%+ BpXnp)+ > (BX; +--+ BpXip) 
2 
BUB s 层 的 条 件 似 然 函数 为 ; 
$ y ex Sta t. + Beso 
L= bb b - [8.2 ]] = (14-21) 





= T E, ues Eus te BpXip) 
jal 
采用 最 大 似 然 法 ， 可 得 到 公式 〈14-21) 中 参数 pi- Bp 的 估计 值 ,…,b。 。 由 于 配对 
的 原因 ， 常 数 项 Bo 在 上 述 模型 分 子 、 分 母 中 已 被 消除 。 


14.2.2 SPSS 操作 选项 说 明 


条 件 logistic 回归 的 计算 方法 与 第 16 章 的 Cox 回归 完全 相同 ， 所 以 SPSS 操作 选项 说 
明 可 参见 第 16 章 。 


14.2.3 实例 与 结果 解释 


为 了 详细 说 明 条 件 logistic 回归 的 应 用 ， 下 面 列举 三 个 不 同 的 例子 。 

1. 低 出 生体 重 与 母亲 孕前 情况 之 间 的 联系 

Hosmer 和 Lemeshow (1989 ££) 按 1:3 配对 设计 ， 调 查 了 低 出 生体 重 
(1= 低 体重 ，0= 正 常 ) 婴儿 与 母亲 怀孕 前 体重 (kg)、 高 血压 、 吸 烟 、 子 宫 敏 感性 之 闻 的 关 
系 。 后 三 个 变量 为 0、1 变量 ，0= 无 ，1= 有 ; 母亲 年 龄 作为 配对 分 层 变 量 。 从 该 研究 中 搞 
录 的 15 对 数据 见 表 14-8〈 见 配 书 光盘 中 的 数据 文件 data14-5.xls 或 datal14-5.sav )。 
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514-8 ”母亲 孕前 情况 对 儿童 出 生体 重 的 影响 
对 子 号 — 低 体重 ”体重 ”高 血压 吸烟 ”敏感 性 | 对 子 号 病例 否 AE ”高 血压 ”吸烟 ”敏感 性 





1 1 59 0 0 0 8 0 52 1 0 0 
1 0 51 0 0 0 8 0 86 0 0 0 
1 0 61 1 0 0 9 1 60 0 1 0 
l 0 122 0 0 0 9 0 41 1 0 0 
2 1 50 0 0 0 9 0 50 0 0 0 
2 0 47 0 0 0 9 0 60 0 0 0 
2 0 51 0 0 0 10 1 48 0 1 0 
2 0 64 0 1 0 10 0 54 1 0 0 
3 1 50 1 0 0 10 0 70 0 0 0 
3 0 45 1 0 0 10 0 109 0 1 0 
3 0 54 1 0 0 11 1 44 0 0 0 
3 0 104 0 0 0 II 0 76 1 0 0 
4 1 46 0 0 0 11 0 73 0 0 0 
4 0 83 0 0 1 11 0 60 1 0 0 
4 0 68 0 0 0 12 1 54 1 0 1 
4 0 86 0 0 0 12 0 54 1 0 0 
5 1 57 0 0 1 12 0 76 0 0 0 
5 0 54 0 0 1 12 0 113 1 0 0 
5 0 71 0 0 1 13 1 59 0 0 1 
5 0 72 0 0 0 13 0 68 0 0 0 
6 1 91 0 0 1 13 0 61 0 0 0 
6 0 49 1 0 1 13 0 70 0 0 0 
6 0 84 1 0 0 14 1 64 1 0 0 
6 0 50 1 0 1 14 0 69 0 0 0 
7 1 59 1 0 0 14 0 50 0 0 0 
7 0 43 0 1 0 14 0 51 0 0 0 
7 0 54 0 1 0 15 1 46 1 0 0 
7 0 77 0 0 0 15 0 98 1 0 0 
8 1 44 0 0 1 15 0 54 0 0 0 
8 0 58 0 0 0 I5 0 68 1 0 0 


资料 来 源 : Hosmer DWJ 55, Applied logistic regression. John Wiley and Sons, 1989 


(1) SPSS 数据 格式 
SPSS 数据 格式 见 图 14-15， 对 子 号 为 1 列 ， 应 变量 “ 低 体 重 ” 及 母亲 体重 等 4 个 自 变 
量 各 为 1 列 。 
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» [Data View Á Variable View. / 





SPSS Processor is ready 


图 14-15 Æ 14-8 的 SPSS 数据 格式 


(2) SPSS 操作 步骤 

e Compute Variable 对 话 框 操作 提示 
Transform =jk&2) ARË Age 
"8Compute... -计算 T=2- 低 体重 ,该 TT 值 类 似 生 存 分 析 中 的 生存 时 间 
* Cox 回归 对 话 框 操作 提示 

Analyze 

Survival 

Cox Regression- 

。 定义 Cox 回归 对 话 框 操作 提示 

"Time [^] T 

他 Status [>] 低 体重 

Define Event... 

Single Value: 1 

JBCovariates 体重 ， 高 血压 ， 吸 烟 ， 敏 感性 | 














-Strata [ “对 子 号 
e 定义 Cox 回归 Options 子 对 话 框 操作 提示 
Options... 
DM CI for exp(B): 一 获得 风险 比 HR 值 的 95% 置 信 区 间 | 
BM Correlation of estimates = P k Ë F| 06 482 RAEE, WA 
重 共 线性 参考 
(3) SPSS 输出 的 主要 结果 及 解释 
Variables in the Equation 
95.0% CI for Exp(B) 
SE Wald df Sig. Exp(B) Lower Upper 
体重 -.042 .025 2.764 .096 .959 j 
-.095 .012 : .909 
624 273 


2.145 


结果 14-21 SPSS 输出 结果 
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有 SSSS 与 统计 分 析 — 


对 结果 14-21 的 解释 和 非 条件 logistic 回归 一 样 ， 因 例 数 较 少 ，4 个 变量 在 w = 0.05 水 
准 下 均 无 统计 学 意义 ， 但 敏感 性 的 P=0.074， 较 接近 0.05， 提 示 子 宫 敏感 性 可 能 是 婴儿 低 
出 生体 重 的 危险 因素 (如果 样 本 含量 较 大 )。 该 变量 对 应 的 OR =8.541。 

2. 列 联 表格 式 的 数据 

为 了 研究 某 种 食物 对 胃癌 发 病 的 影响 ， 某 研究 者 进行 了 1:1 配对 的 病 
例 对 照 研究 ， 调 查 结果 见 表 14-9( 见 配 书 光盘 中 的 数据 文件 data14-6.xls 或 data14-6.sav)， 
试用 条 件 logistic 回归 分 析 这 一 数据 。 


表 14-9 胃癌 发 病 的 1:1 匹配 病例 对 照 


对 R 
食物 有 害 物 水 平 
1 2 3 4 
1 37 10 3 4 
2 14 4 1 1 
病 例 
3 8 7 1 0 
4 10 2 1 0 


资料 来 源 : 余 松 林 编 医学 现场 研究 中 的 统计 分 析 方 法 ，1985，p197 


(1) SPSS 数据 格式 

SPSS 数据 格式 见 图 14-16， 创 建 1 列 对 子 号 〈pdh)， 用 来 指示 表 14-9 中 的 每 一 个 格 
+f; 应 变量 case 指示 病例 与 对 照 (1= 病 例 ，0= 对 照 )， 食 品 有 害 物 水 平 记 为 x， 格 子 频 数 
记 为 freq。 图 14-16 的 第 1,2 行 数据 对 应 表 14-9 的 第 1 个 格子 ， 其 频数 为 37; 第 3,4 行 数 








图 14-16 Xx 14-9 的 SPSS 数据 格式 


(2) SPSS 操作 步骤 
* Compute Variable 对 话 框 操作 提示 


“Transform 
Compute... 

。 定义 频数 操作 提示 
-Data 

人 他 Weight Cases... 
Weight case by 
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Frequency Variable| > ] freq 
* Cox 回归 对 话 框 操作 提示 


Analyze n 
Survival 
Cox Regression: 


e 定义 Cox 回归 对 话 框 操作 提示 
‘OTimeD]T 

“Status [>] case 

Define Event... 

Single Value: 1 — — 

Covariates [>] x 

Strata [>] pdh 

* 定义 Cox 回归 Options 子 对 话 框 操作 提示 


“Options... 

DM CI for exp(B): 

[Z] Correlation of estimates 

(3) SPSS 输出 主要 结果 及 解释 

由 结果 14-22 得 到 参数 估计 值 b=0.415， 标 准 误 SE(b) =0.155, Wald 卡 方 检验 得 x?= 
7.178, P =0.007, 说 明 该 食物 的 有 害 物 水 平 对 胃癌 的 发 病 有 影响 ， 其 优势 比 为 1.515, 95% 
的 置信 区 间 为 (1.118, 2.053)。 


Variables in the Equation 


95.0% CI for Exp(B) 
Wald Exp(B) Lower Upper 


| | s| | | iss| ra] ass] 


结果 14-22 SPSS 输出 结果 


3. 受 欢迎 巧克力 品种 的 评价 

有 8 种 巧克力 由 10 人 来 品尝 , 每 人 品尝 每 一 种 巧克力 ,并 给 出 品尝 后 
的 评价 (喜欢 =1， 不 喜欢 =0)。8 种 巧克力 分 别 由 颜色 dark (暗色 =1， 乳 白 =0)、 硬 度 soft 
( 软 =1, 人 硬 =0)、 果 仁 nuts (有 =1, 无 =0) 组 合 而 成 (数据 来 自 SAS, 1995, Logistic Regression 
Examples Using the SAS System, pp. 2-3). 

(1) SPSS 数据 格式 

SPSS 数据 格式 见 图 14-17. (数据 文件 见 datal4-7.xls 或 data14-7.sav), 第 1 列 为 个 体 编 
号 〈subject， 相 当 于 前 面 的 对 子 号 )， 应 变量 为 是 否 喜欢 该 品种 ， 记 为 choose， 自 变量 为 组 
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成 巧克力 品种 的 颜色 、 硬 度 、 果 仁 (dark, soft, nuts). 14-17 内 显示 的 第 1 至 第 8 
行 数 据 ， 是 某 一 个 体 的 品尝 数据 ， 该 个 体 喜 欢 吃 暗黑 、 硬 的 、 不 带 果 仁 的 巧克力 品种 ， 其 
他 9 个 个 体 也 有 类 似 的 数据 。 


0 
0 
0 
0 
0 
1 
0 
0 
dl 
0 


O OD — — — — O O O O 


0 
1 
0 
1 
1 
0 
0 
1 
0 
1 


ONSE EIL rS — | -ad 





ta View Á Variable View / 本 二 : Hs — T» 


opem is ready | 
图 14-17. 受 欢迎 巧克力 品种 的 评价 数据 


(2) SPSS 操作 步骤 
* Compute Variable 对 话 框 操作 提示 


Transform 
"Compute... 
e 指定 Cox 回归 对 话 框 操 作 提示 


Analyze 
“Survival 


Cox Regression: :- 
。 定义 Cox 回归 对 话 框 操作 提示 


OTime[»]T 
"&Status [*] choose 
Define Event... 
Single Value: 1 


Covariates [>] dark, soft, nuts 
Strata [> | subject 
e 定义 Cox 回归 Options 子 对 话 框 操作 提示 


Options... 
DM CI for exp(B): [95% 


M Correlation of estimates 
(3) SPSS 输出 主要 结果 及 解释 
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Variables in the Equation 


95.0% CI for pes 
Wald Exp(B) Lower 
1.386 -791 3.075 18.836 
soft -2.197 1.054 4.345 .111 .014 
nuts 1.508 2.333 9.023 


结果 14-23 ”参数 值 计 值 等 结果 


由 结果 14-23 可 知 ，dark 和 nuts 为 正 值 ，soft 为 负 值 ， 表 示 品 尝 者 更 喜欢 暗黑 色 、 有 


果 仁 的 硬 巧 克 力 。 根 据 公 式 (14-20)， 可 得 到 条 件 预测 概率 模型 为 : 
方 = exp(1.386dark, — 2.197soft; + 0.847nuts;) 


i 

















8 
> expl -386dark; — 2.197soft; + 0.847nuts;) 
i=l 


其 中 , i 是 8 个 巧克力 品种 。 对 于 每 一 品种 , 由 上 述 公式 计算 得 到 的 条 件 预测 概率 如 表 14-10 
所 示 。 黑 色 、 有 果 仁 的 硬 巧克力 条 件 预测 概率 为 0.504， 是 最 受 欢 迎 的 品种 ， 其 次 受 欢迎 
的 品种 是 黑色 、 无 果 仁 的 硬 巧 克 力 ， 条 件 预测 概率 为 0.216。 


表 14-10 8 个 巧克力 品种 的 条 件 预测 概率 计算 表 


i dark soft nuts exp(bx) 条 件 预测 概率 

1 0 0 0 1.000 0.054 

2 0 0 1 2.333 0.126 

3 0 1 0 0.111 0.006 

4 0 1 1 0.259 0.014 

5 1 0 1 9.333 0.504 

6 1 0 0 4.000 0.216 

7 1 1 0 0.444 0.024 

8 1 1 1 1.037 0.056 
合计 18.519 1.000 





14.3 ”有 序 logistic 回归 


以 上 各 节 介 绍 的 应 变量 为 二 项 分 类 ， 服 从 二 项 分 布 。 但 在 实际 工作 中 ， 也 会 遇 到 有 序 
多 项 分 类 的 应 变量 资料 ， 如 药物 疗效 分 为 无 效 、 控 制 、 有 效 三 个 等 级 ， 疾 病 病 情 分 为 轻 、 
中 、 重 等 。 此 类 资料 可 采用 有 序 logistic 回归 方法 分 析 。 


14.3.1 方法 介绍 


为 了 介绍 模型 ， 先 给 出 一 个 实例 ， 以 便 理解 模型 中 的 符号 。 
采用 两 种 药物 (X) 胆 麻 片 (X=1) 和 江 剪 刀 草 合剂 Ox =0) 治疗 慢性 
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支气管 炎 , 其 治疗 效果 (了 ) 分 为 无 效 (六 1)、 稍 有 好 转 (六 2)、 疗 效 显著 G=3). 治愈 G=4) 
4 类 ， 每 种 药物 不 同 疗效 的 病人 频数 分 布 情况 见 表 14-11 (数据 文件 见 datal4-8.xls 或 
data14-8.sav)， 试 分 析 不 同 药物 的 疗效 。 


表 14-11 两 种 药物 治疗 慢性 支气管 炎 的 效果 括号 内 为 每 种 药 的 疗效 构成 比 ) 


FA 
药物 (X> 合计 
治愈 疗效 显著 稍 有 好 转 无 效 
胆 麻 片 13 (14%) 21 (22%) 51 (54%) 9 (10%) 94 
11897] 6 30] 30 (1%) 670 (20%) 1870 (5695) 760 (2390) 3330 


1. PLUM 模型 

SPSS 的 有 序 logistic 回归 , 以 McCullagh 1980, 1998 年 ) 提 出 的 方法 为 基础 , McCullagh 
对 他 所 提出 的 方法 编 有 PLUM 软件 ,所 以 这 里 称 SPSS 有 序 回归 模型 为 PLUM 模型 ， 其 模 
型 表达 式 为 : 

m [z i < |= St Bel 

其 中 ， 用 i Ci=125-,m) 指示 亚 群 ( 即 自 变量 向 量 的 行 数 ， 与 公式 (14-19) 中 的 i 
类 似 )， 如 表 14-11 ARRA m=2 ^ ERES Hj ( j=1,2,…,J》 指 示 应 变量 了 的 分 类 ， 如 
表 14-11 所 示 共有 /=4 类 ; Hk (k=1,2,…,p ) MRAZE (Xp, Xp) MÆ 14-11 所 
示 共有 p=1 TEER; aj 为 常数 项 (j=1,2,…, 10s Bv 为 回归 参数 (k=12,…,p ); 9; 
为 尺度 参数 默认 值 为 Do mY < j=ma+-- +m 是 应 变量 了 小 于 等 于 j 的 累加 概率 ， 
ny [e (Y < 用 ] 是 关于 累加 概率 my( < 四 的 连接 函数 。SPSS 提供 了 5 种 连接 函数 : 


J =12… 7 一 1 (14-22) 


° Logit fcit: v ED) In 为 自然 对 数 符号 , 由 此 形成 的 模型 为 累加 logit 
Tij < 


模型 ， 这 种 模型 也 常常 被 称 为 比例 优势 模型 ， 
° 补 对 数 对 数 连接 函数 ，In(-In(1-xy(Y < p)); 
° 负 对 数 对 数 连接 函数 : —In(-In(z;(Y < j))): 
° Probit ERRAR: @-l(z;(V < p), ^! (C) 为 标准 正 态 分 布 分 位 数 ; 
° Cauchit 连接 函数 ， tan (xy(7Y = (aY < j—0.5)), tan 为 三 角 函 数 正切 符号 。 
在 有 序 logistic 回归 模型 中 ， 比 例 优势 模型 〈 此 处 令 尺度 参数 c 为 1) 最 常用 ， 模 型 


A: 
> 
. Tij 
In Ty < p =]n yal -In Ni teet Tij f 
l-r; < J) Y Z; Nigy tety j» j=1,2,,J—1 (14-23) 
ij 
Y=j+i 


=G; -(BXi ++ BpXip) 
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累加 概率 具有 x(Y «Dna «2«--«z( <J)=1 的 顺序 ， 在 任何 情况 下 都 有 
aY <J)=1, HAR 14-23) 可 创建 J-1 个 模型 ， 第 j 个 累加 logit 模型 就 像 是 一 个 一 般 
二 项 分 类 logit 模型 ， 其 中 第 1~ 类 合并 为 1 X, mE QD 一 了 类 再 合并 成 另 一 类 ; 换 
句 话 说， 就 是 将 原来 的 多 项 分 类 反应 结果 ， 通 过 合并 转变 成 一 般 的 二 项 分 类 反应 结果 。 例 
如 ， 当 样本 数据 的 7V=3 时 ，2 个 累加 logit 模型 分 别 为 ; 


in| — P =a -(hXatobo Xu), P jl 
P2 + ps 





A 


m| Bibe cu - aate 其 中 大 2 

P3 

H, Pit Po + Pa =1, 

累加 logit 的 了 -个 预测 概率 模型 为 : 

epl (Pa 二 有 Xe)) 12 1424) 

l+exp(0; - (iX +--+ BpXip)) Utt 

例如 ， 当 样本 数据 的 J=3 时 ， 有 2 个 累加 logit 预测 概率 模型 分 别 为 : 
^ exp(ai — (Xi b, Xi) . 

= ; =] 

Piremp(a Xa +b X) Q 





nj(Y < j)- 





"m exp(az — (biXa t b, Xi)) 
Pi 1+exp(az - (bXf +---+b,X ,)) 
2. 回归 模型 参数 的 意义 及 其 解释 
与 一 般 二 项 分 类 logistic 回归 相似 , 回归 系数 b，(k = 1, 2,…, p) 表示 在 其 他 自 变量 固 
定 不 变 的 情况 下 , 某 一 自 变 量 X 改变 一 个 单位 ，logit (py(Y > 站)) 或 对 数 优势 的 平均 改变 
E. SPSS 的 反映 了 自 变量 Xi 对 反应 类 别 Y > j 的 效应 大 小 (SAS 软件 恰好 相反 )。 当 
b,=0 时 , 表示 自 变 量 X, 与 应 变量 独立, 即 X, 对 于 了 的 贡献 无 统计 学 意义 ; 当 b >0 时 ， 
表示 随 着 Xi 的 增加 ，Y 更 可 能 落 在 有 序 分 类 值 更 大 的 一 端 ， 当 bh <0 时 ， 表 示 随 着 X, 的 
增加 ， 了 更 可 能 落 在 有 序 分 类 值 更 小 的 一 端 。 
在 实际 工作 中 ， 同 样 较 多 采用 优势 比 〈Odds Ratio, OR) 来 解释 ， 即 X, 每 增加 一 个 单 
位 ， 则 了 > j 的 优势 将 改变 exp(PBi) 售 。 
模型 假设 检验 、 模 型 拟 合 优 度 评价 等 方法 与 二 项 分 类 logistic 回归 相似 。 


14.8.8 SPSS 操作 选项 说 明 


X 14-11 的 数据 格式 见 图 14-18， 自 变量 药物 x、 疗 效 y、 频 数 freq 各 占 一 列 。 
(1) 定义 频数 操作 提示 


， 其 中 六 2 
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Data 

Weight Cases... 

“Weight case by 
Frequency Variable| > | freq 


(2) 指定 Ordinal 回归 对 话 框 操作 提示 〈( 见 图 14-19) 











图 14-18 表 14-11 的 SPSS 数据 格式 图 14-19 有 序 logistic 回归 模型 对 话 框 
Analyze 
Regression 
Ordinal- -- 
` 
(3) 定义 Ordinal 回归 对 话 框 操作 提示 
Dependent» | y ik A f P 2 2 65 d 
"BFactor(s) 呈 选 入 分 类 自 变 量 ， 注 意 : 这 里 哑 变 量 编码 
以 数字 较 大 者 作为 参照 类 别 
-Covariate ( s ) 字 选 入 连续 型 自 变量 或 0、1 二 分 类 变量 
(4) 定义 Options 子 对 话 框 操作 提示 〔〈 见 图 14-20) 
Alterations 选项 ”设置 最 大 似 然 估计 模型 选 代 的 收 全 标准 
Confidence interval 框 号 设置 参数 置信 区 间 的 置信 度 范围 , 默认 值 为 95% 
Delta 框 号 对 频数 为 0 的 单元 格 进行 校正 
Singularity tolerance 全 设置 奇异 值 标准 
DLink 下 拉 式 列表 框 选取 模型 的 连接 函数 ， 默 认 值 为 Logit 连接 函数 


Cauchit, Complementary log-log，Logit，Negative log-log，Probit 连接 函数 的 含义 见 
14.3.1.1 节 的 有 序 logistic 回归 方法 介绍 。 
(5) 定义 Output 子 对 话 框 操作 提示 〈( 见 图 14-21) 
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Iw Goodness of fit statistics 

IV Summary statistics 

IV Parameter estimates 

[ Asymptotic correlalion of parameter estimates 
| Asymptotic covariance of parameter estimates 


ÍV Cell information 


[V Test of parallel ines 





图 14-20 Options 子 对 话 杠 图 14-21 结果 输出 定义 窗口 
Display 复 选 杠 
Print iteration history for every x step(s) 宇 设置 迭代 步 数 ， 输 出 迭代 信息 
Goodness of fit statistics 一 输出 模型 拟 合 优 度 检 验 结 果 
人 人 Summary statistics 一 输出 Cox and Snell, Nagelkerke 和 
McFadden 伪 决 定 系数 
Parameter estimates 一 输出 参数 估计 值 、 标 准 误 和 置信 区 间 


"BAsymptotic correlation parameter estimates 7 4r H # Jc 86 dg X #E E 
"BAsymptotic covariance parameter estimates ”一 输出 参数 的 协 方差 矩阵 


Cell information 一 输出 每 一 格子 的 实际 频数 、 模 型 估计 
得 到 的 期 望 频数 、Pearson 残 差 等 信息 

Test of parallel lines 号 检验 比例 优势 模型 的 假定 条 件 ( 对 于 
应 变量 的 每 一 类 别 ， 回 归 参 数 斜 率 相 
等 ) 是 否 成 立 

Saved variables 复 选 框 

Estimated response probabilities 一 将 应 变量 每 一 类 别 的 每 一 格子 预测 概 
率 保 存在 数据 窗口 

Predicted category 全 将 每 一 格子 预测 类 别 保存 在 数据 窗口 

-Predicted category probabilities 一 将 每 一 格子 预测 类 别 对 应 的 预测 概率 

保存 在 数据 窗口 

Actual category probabilities SHET 3c ER XE np 5 65 38 n E 
保存 在 数据 窗口 

Print log-likelihood 单 选 按钮 

“OIncluding multinomial constant 全 输出 包括 常数 项 的 对 数 似 然 值 

Excluding multinomial constant 呈 输 出 不 包括 常数 项 的 对 数 似 然 值 


-~ 
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(6) Location 子 对 话 框 

这 一 对 话 框 与 一 般 线性 回归 模型 的 模型 设置 完全 相同 ， 主 要 用 于 定义 模型 的 主 效应 与 
交互 效应 项 。 具 体 说 明 从 略 。 

(7) Scale 子 对 话 框 

用 于 定义 模型 的 尺度 参数 值 ， 其 默认 值 为 1。 


14.3.3 ”实例 与 结果 解释 
1. 药物 疗效 观察 
(1) SPSS 数据 格式 
表 14-11 的 数据 格式 见 图 14-18， 自 变量 药物 x、 疗 效 y、 频 数 freq 各 占 一 列 。 
(2) SPSS 操作 步骤 
° 定义 频数 操作 提示 
Data 
"Weight Cases... 
Weight case by 
Frequency Variable| » | freq 
e 指定 Ordinal logistic 回归 对 话 框 操作 提示 
Analyze 
Regression 
* E X. Ordinal logistic 回归 对 话 框 操作 提示 


Dependent [>] y 
Covariates [>] x 


。 定义 Output 子 对 话 框 操作 提示 〈( 见 图 14-20) 


-加 Goodness of fit statistics 
DM Summary statistics 

“EZ Parameter estimates 
“E Cell information 

OM Test of parallel lines 
OM Saved variables 


(3) SPSS 输出 主要 结果 及 解释 
结果 14-24 输出 了 应 变量 每 一 类 别 的 频数 及 其 构成 比 。 
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Case Processing Summary 


Marginal 
Percentage 


Valid 


Missing 
Total 








结果 14-24 ”应 变量 每 一 类 别 的 频数 及 其 构成 比 
结果 14-25 输出 了 模型 全 局 性 的 检验 结果 ，P 值 小 于 0.05， 表 示 模 型 有 统计 学 意义 。 


Model Fitting Information 


= [== ee 
Model Likelihood Chi-Square df g 
E uelim 
Final 63.600 22.425 1 


Link function: Logit. 


结果 14-25 ”模型 全 局 性 的 检验 结果 










2 
Pearson 卡 方 检验 公式 为 : Y? = ge, Deviance 卡 方 检验 公式 为 :Xx* = 


2Y,0 m, Joh O 与 瑟 分 别 为 观察 频数 与 期 望 理论 频数 《〈 见 结果 14-26)。 它 们 的 自由 


BEA mU-D-[J-1-4p)] m 为 亚 群 数 ，J 为 应 变量 类 别 数 ，p 为 自 变量 个 数 。 本 例 自 由 度 
=2x(4-1U-[(4-U+1=2， 两 个 拟 合 优 度 检 验 结 果 P 值 均 小 于 0.05， 说 明 模 型 拟 合 较 差 。 


Goodness-of-Fit 


E NENNEN 
Pearson 43.423 
Deviance 29.366 


Link function: Logit. 









结果 14-26 Goodness-of-Fit 信息 


结果 14-27 给 出 了 3 个 伪 决 定 系数 , 这些 值 相对 较 小 , 均 不 到 196, 所 以 从 这 几 个 指标 看 ， 
模型 不 够 理想 。 所 以 可 考虑 采用 其 他 模型 拟 合 ， 如 下 面 将 要 介绍 的 多 项 分 类 回归 模型 。 


Pseudo R-Square 


Cox and Snell .007 
Nagelkerke .007 
McFadden .003 


Link function: Logit. 


结果 14-27 Pseudo R-Square 信息 
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结果 14-28 给 出 了 参数 估计 值 及 其 检验 结果 , 这 是 有 序 logistic 回归 的 主要 结果 ,具体 
解释 如 下 。 


Parameter Estimates 


Estimate / | Sg 95% Confidence Interval 





Lower Bound | Upper Bound 
Threshold — [y - 1] . 877.230 
ly 22] + 981.397 
ly 23] . 822.358 
Location x . . 24.330 














Link function: Logit. 


结果 14-28 参数 估计 值 及 其 检验 结果 


° 药物 x 变量 对 应 的 回归 系数 为 0.986， 是 正 值 ， 且 假设 检验 P 值 小 于 0.05。 结 果 表 
明 ， 与 江 剪 刀 草 合剂 相 比 ， 药 物 胆 麻 片 治疗 效果 更 好 (从 表 14-11 括号 内 的 每 种 药 
疗效 构成 比 ， 可 直观 反映 这 一 点 ), 优势 比 为 exp(0.986)=2.68。OR 的 95% 置 信 区 间 
为 exp(0.986 土 1.96x0.200) = (1.81, 3.97) 。 

。 根据 结果 14-28 中 的 参数 结果 ， 可 按 公式 〈14-24) 列 出 3 个 累加 预测 概率 logic 模 
RI. 

exp(-1.219 — 0.986x) 

1+ exp(-1.219 ~ 0.986x) 
exp(1.329 — 0.986x) 

1+ exp(1.329 — 0.986x) 

exp(4.403 — 0.986x) 
1+ exp(4.403 — 0.986x) 
因为 本 例 自 变量 只 有 1 个 ， 且 为 二 项 分 类 ， 所 以 的 取 值 为 1 2. E x STRADA ER 

式 ， 可 获得 应 变量 每 一 分 类 的 预测 概率 。 用 麻 胆 片 的 总 例 数 94 乘 以 其 对 应 的 预测 概率 

(0.0993, 0.4857, 0.3833, 0.03175, MIHIA AAA 3330 乘 以 其 对 应 的 预测 概率 

(0.2281, 0.5626, 0.1972, 0.0121)， 可 得 到 每 一 格子 的 期 望 值 〈( 见 结果 14-29 )。 





Paly <1) = 





Pi (y < 2)= 


Di (y < 3) = 





Cell Information 





Observed 1870 670 
Expected 759.712 1873.403 656.665 


Pearson Residual .012 -.119 .581 
Observed 9 51 21 
Expected 











Pearson Residual 





结果 14-29 Cell Information 


AnG | 
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结果 14-29 中 的 “Pearson Residual” 实 际 上 是 标准 化 残 差 Z; , WAARA: 
(Os — Ej) 
ni Py (1 — Py) 
其 中 ，0O;，E;j 分 别 是 观察 频数 、 期 望 理论 频数 ，ni 是 每 一 亚 群 的 合计 频数 ， 如 x=0 
亚 群 的 no =760+1870+670+30=3330 ; py 为 每 一 格子 的 预测 概率 ,如 x=0, y=2 的 “Pearson 
Residual" 5X2:7J: 


Z; = 


Za = — 870 - 1873.403) 
4/8330x0.5626(1 — 0.5626) 
其 他 依 此 类 推 ， 由 结果 可 见 ， 标 准 化 残 差 绝对 值 较 大 者 有 2/8， 这 一 比例 超过 了 1/5, 
说 明 模 型 较 差 。 
结果 14-30 给 出 了 比例 优势 模型 假定 条 件 的 检验 结果 。 本 例 的 比例 优势 假定 的 似 然 比 
卡 方 检验 得 x =63.600, df =2,P<0.001， 说 明 本 例 的 比例 优势 假定 不 成 立 。 这 种 情况 下 
可 考虑 采用 其 他 连接 函数 ， 拟 合 其 他 模型 〈 如 补 对 数 对 数 模型 )， 或 采用 下 面 将 要 介绍 的 
多 项 分 类 logistic 回归 模型 。 


=—0.119 


Test of Parallel Lines 


-2 Log 
u | aas] a sei 
Null Hypothesis 63.600 
see | “| am lm 


结果 14-30 ”比例 优势 模型 假定 条 件 的 检验 结果 


2. 不 同年 份 、 不 同 婚姻 状况 的 幸福 感 研究 

某 研究 者 分 别 在 1985 年 、1995 年 、2005 年 三 个 年 份 ， 调 查 了 已 婚 与 
未 婚 的 30 岁 左 右 成 年 人 幸福 感情 况 , 结果 见 表 14-12 (数据 文件 见 data14-9.xIs 或 data14-9. 
sav)。 问 不 同年 份 、 不 同 婚姻 状况 的 幸福 感 如 何 ? 






表 14-12 不同 年份 、 不 同 婚姻 状况 的 幸福 感 





幸福 感 程度 
年 份 婚姻 状况 不 太 幸 福 (1) 比较 幸福 〈2) 十 分 幸福 G) 
1985 已 婚 (1) 214 869 237 
未 婚 (0) 93 773 551 
1995 Be (1) 80 211 65 
未 婚 co 76 473 453 
2005 已 婚 (1) 98 327 130 
未 婚 (0) 46 367 312 


(1) SPSS 数据 格式 
X 14-12 的 数据 格式 见 图 14-22， 自 变量 年 份 (YEAR)、 婚 姻 状 况 (MARRIED)、 应 
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变量 幸福 感 程度 (HAPPY) 及 频数 (FREQ) 各 占 一 列 。 
C VEn [wammED HAPPY [ FREG | — | 


YEAR MARRIE 
[ 3| 1965 









30025000 
JN — O N — O N — 
N 
N 
O 


211 
Ris J — ol 
is ready 


图 14-22 不 同年 份 、 不 同 婚姻 状况 的 幸福 感 SPSS 数据 格式 





SPSS Processor 


(2) SPSS 操作 步骤 

。 定义 频数 操作 提示 

Data 

Weight Cases... 

“Weight case by 

"BFrequency Variable[ P ] freq 

e 定义 Into Different Variables... 对 话 框 操作 提示 “〔〈 以 1985 年 为 参照 年 份 ) 


“Transform 
-Recode 
Into Different Variables... 
-Input Variable—Output Variable|»] YEAR 
Output Variable 对 话 框 
Name: yearl 
-Old and New Values... 
Old Value 
value: 1985 

1995 

2005 
New Value 
value: 3 

2 

1 


e 指定 Ordinal 回归 对 话 框 操作 提示 


Analyze 
Regression 
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Ordinal... 
e 定义 Ordinal 回归 对 话 框 操作 提示 


Dependent [>] HAPPY 
Factors [>] year1 
Covariates [>] MARRIED 


e 定义 Output... 按 钮 操作 提示 


DMI Goodness of fit statistics 
DM Summary statistics 

E] Parameter estimates 
BM Cell information 

“E Test of parallel lines 
DM Saved variables 


(3) SPSS 输出 主要 结果 及 解释 


Parameter Estimates 


Ne | Estimate ig. 95% Confidence Interval 


Threshold [HAPPY = 1] à 750.258 





[HAPPY = 2] 2 740.099 


Location MARRIED s 341.008 
[yearl=1.00] Ñ E 4.428 
[year1-2.00] j d 1.601 
[year1=3.00] 























Link function: Logit. 
a. This parameter is set to zero because it is redundant. 


结果 14-31 SPSS 输出 结果 


由 结果 14-31 可 见 : 

e° 婚姻 状况 为 已 婚 者 的 幸福 感 高 于 未 婚 者 ， 其 优势 比 为 exp(1.077)=2.94， 即 已 婚 者 的 
幸福 感 优 势 是 未 婚 者 的 3 倍 ; 相对 于 1985 4E, 1995 年 和 2005 年 的 幸福 感 均 有 所 提 
高 ， 但 优势 不 明显 ， 如 2005 年 的 幸福 感 优势 只 是 1985 年 的 exp(0.141)=1.15 倍 。 

e 按 公 式 (14-24)， 可 列 出 2 个 累加 预测 概率 logit 模型 : 
P, (HAPPY <D = exp(-1.492 —1.077MARRIED, — 0.141Y>oos; — 0.084Y,oos;) 

1+ exp(—1.492 — 1.077 MARRIED, — 0.14 1Y;os; — 0.084Y;oos; ) 
exp(1.468 — 1.077MARRIED, — 0.141Y,00s; — 0.084Y.ços;) 


EAPDY o 2 MM EM. 
1+ exp(1.468 — 1.077 MARRIED, — 0.141Y,00s; — 0.084Y.oos;) 
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14.4 多 项 分 类 logistic 回归 


多 个 应 变量 的 取 值 有 时 无 大 小 顺序 关系 ,如 应 变量 为 婚姻 状况 〈 已 婚 、 离 异 、 未 婚 )、 
职业 (工人 、 农 民 、 军 人 人、 学生、 商人 、 知 识 分 子 )、 心 理 疾病 (精神 分 裂 症 、 换 郁 症 、 
神经 官能 症 ) 等 ， 这 些 多 项 无 序 分 类 变量 统计 上 称 为 名 义 变量 (Nominal Variables), 44 
义 应 变量 与 自 变 量 〈 可 以 是 名 义 、 有 序 或 区 间 变 量 ) 之 间 建 立 的 回归 模型 被 称 为 多 项 分 
类 回归 。 


14.41 方法 介绍 
1. 回归 模型 
与 有 序 分 类 logistic 回归 相同 ， 令 名 义 应 变量 7 有 J 个 类 别 ， 令 第 放 j=1,2,…,J ) 类 的 


J 
概率 分 别 为 {x1,…,zj,…,zj}， 并 满足 Yn; =1。 基 于 这 些 概率 , n 个 独立 观察 对 象 分 配 到 


ja 
各 自 的 类 别 中 ， 观 察 对 象 在 了 个 类 别 中 的 分 布 服从 多 项 分 布 。 当 J =2 时 ， 多 项 分 布 即 等 
价 于 上 一 章 的 二 项 分 布 。 自 变量 〈 即 解释 变量 ) WA X, (k=1…,p )，Qj 与 Bi 分别 表 


示 第 j 类 的 常数 项 与 解释 变量 参数 ， 多 项 分 类 logit 模型 (Polytomous Logit Model) 
(Polytomous 也 以 Polychotomous 或 Multinomial 形式 出 现 ) 可 表示 为 : 
Zt; 
m| Z+ =a, + BiXi +-- +B, Xk +--+ BipXp ; j=1,:…,J—1 (14-25) 
J 





样本 数据 获得 的 模型 为 : 
(ea etam en an +*'**+bjpXp, j=1,:…,J —1 (14-26) 
Dj. 


该 等 式 是 以 最 后 一 类 (J) 为 基线 〈 也 可 选择 其 他 类 别 为 基线 ) 的 ， 每 个 反应 类 别 j 与 
基线 类 别 J 间 建 立 回 归 模 型 ， 因 此 这 种 模型 也 称 为 基线 分 类 logit 模型 (Baseline-Category 
Logits Model)。 这 种 模型 需要 同时 估计 (7 —1) 个 二 项 反应 logit 模型 ， 应 用 范围 广 ， 灵 活性 
大 ， 也 称 为 广义 logit Æ (Generalized Logit Model). 

2. 回归 模型 参数 的 意义 

与 前 面 有 序 分 类 logistic 回归 模型 不 同 的 是 ， 每 一 自 变量 有 (J - D 个 参数 。 参 数 的 解 
释 与 有 序 分 类 logistic 回归 相似 ， 即 参数 Bj 的 估计 值 by (j 12-4 k= l2, p 
表示 在 其 他 自 变量 固定 不 变 的 情况 下 ， 某 一 自 变量 Xi 改变 一 个 单位 ， 反 应 类 别 j (相对 于 
类 别 Jo 的 对 数 优势 平均 改变 量 。 在 实际 工作 中 ， 同 样 较 多 采用 优势 比 (Odds Ratio, OR) 
来 解释 ， 即 Xi 每 增加 一 个 单位 ， 反 应 类 别 j (相对 于 类 别 J) 优势 将 改变 exp(pj ) fii. 

当 J=2 时 ， 模 型 只 有 一 个 等 式 ， 即 等 价 于 一 般 二 项 反应 logistic 回归 模型 ， 模 型 左 侧 
2J In(z i /x2)= Inim /(0—7)] =logit(mi) 。 当 J=3 时 ， 模 型 将 有 2 个 等 式 ，logit 等 式 的 左 侧 
将 分 别 是 In(xifx3) I In(2 /Nt3)。 
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3. 其 他 两 两 类 别 间 回 归 系 数 的 估计 

对 其 他 两 两 类 别 之 间 的 logit 等 式 回归 系数 的 估计 ,可 由 公式 (14-25) 获得 的 (J-D 个 
等 式 的 bi 决定 。 例 如， 对 于 任意 选 定 的 两 个 类 别 c 和 4d， 它 们 与 基线 类 别 J 对 应 的 等 式 参 
数 分 别 记 为 (ae, ba) 和 (aa, ba)， 则 有 


i| Êe a| br cas Ë] bs 
Da BcÍ pi Ë: P; (14-27) 


- (ac +baXi+:: + bk X, vec bX,)- (aa tbguX tob Xk eb Xp ) 
- (ac -aa )+ (ba -ba)Xi eb (bor — ba )X, e (bep -ba )Xp 
即 对 于 任意 类 别 c 与 4， 自 变量 Xi 对 应 的 回归 系数 估计 值 为 (bo -ba ) 。 


4. 应 变量 的 预测 概率 
名 义 分 类 应 变量 的 预测 概率 为 : 
^ expla; +biXi tct buXu tob Xip) . . 
By-SA Me T pie, i2,2,,m j212,-,J-1 (14-28) 
Y exp(a, +b, Xi +: + b, X ik +: + b Xip) 
h-l 


对 于 每 一 类 别 j} ， 公 式 〈14-28) 的 分 母 均 相 同 ， 且 等 于 每 个 类 别 j 的 预测 概率 p, 的 
分 子 之 和 ,所 以 有 Y p -1. 无 论 以 哪 一 类 别 为 基线 ， 基 线 对 应 的 参数 均 为 0。 例 如 ，, 广 3， 
且 只 有 一 个 自 变量 X， 则 有 

^L expla, +b X) 

PV expla +b X) + exp(a2 +b X) +1 

A exp(a; + b X) 

p exp(aj - b X) exp(a;? +b; X) 41 

"m 1 

p- expla, - b X ) c exp(a? b; X) 41 
因为 基线 参数 为 0， 所 以 有 exp(as - b X) 2 exp(0-- 0X) 21. 


14.4.2 SPSS 操作 选项 说 明 


为 了 研究 野生 鳄鱼 对 于 食物 ( 鱼 、 无 硝 椎 动物 、 扑 行动 物 、 鸟 、 其 他 ) 
的 选择 是 否 与 鳄鱼 生活 环境 、 鳄 鱼 身长 有 关 ， 有 人 收集 了 4 个 湖泊 中 生活 的 219 2E 8518 5 
长 及 腹 内 食物 的 有 关 资 料 ， 数 据 如 表 14-13 所 示 〔 数 据 文件 见 datal4-10.xls 或 datal4-10. 
sav). 

如 果 将 湖泊 Hancock, Oklawaha, Trafford, George 分 别 编码 为 1, 2,3,4; 身长 <2.3m 编 
码 为 1， 身 长 >2.3m 编码 为 0; 食物 鱼 、 无 消 椎 动物 、 扑 行动 物 、 鸟 、 其 他 分 别 编码 为 1, 2, 
3, 4, 5， 则 表 14-13 的 SPSS 数据 格式 见 图 14-23， 自 变量 lake (湖泊 )、size (身长 )， 应 变 
量 主要 选择 食物 choice， 以 及 频数 freq $i — 91. 
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表 14-13 ”鳄鱼 主要 选择 的 食物 








主要 选择 的 食物 
湖泊 身长 m 
鱼 ME) Keim 

Hancock <2.3 23 4 2 
>2.3 7 0 1 

Oklawaha <2.3 5 11 1 
> 2.3 13 8 6 

Trafford <2.3 5 11 2 
223 8 7 6 

George «23 16 19 1 
>2.3 17 1 0 





数据 来 源 : Agresti A. Categorical Data Analysis. John Wiley & Sons, 2002, p270. 
(1) 定义 频数 操作 提示 


Data 

Weight Cases... 

Weight case by 
Frequency Variablel » | freq 


1 1 
1 0 
2| 1 
2 0 
3 1 
3 0 
4 1 
4 0 
1 1 


10 0 
4 |> NData View Á Variable View / 


L4 


[SPSS Processor is ready K 


图 14-23 at X XU TER ER SPSS 格式 
(2) 指定 Multinomial logistic 回归 对 话 框 操作 提示 


Analyze 

Regression 

Multinomial logistic- - 

(3) 定义 Multinomial logistic 回归 对 话 框 操作 提示 


Dependent [> | choice 
"&Factor(s) > | lake 
"BCovariate(s[ ^] size ( 具体 见 图 14-24 ) 
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图 14-24 E X. Multinomial 回归 对 话 框 


在 默认 情况 下 ，SPSS 以 应 变量 的 最 后 一 个 分 类 作为 参照 分 类 。 


Reference Category... 一 可 以 改变 参照 分 类 为 第 一 个 分 类 (First category ), 
或 任意 其 他 分 类 (Custom )。 本 例 以 第 1 类 (和 鱼 ) 
作为 参照 分 类 ， 见 图 14-25 


将 “lake” 放 入 Eactor(s) 框 中 后 ， 计 算 机 自动 以 lake=4 为 参照 分 类 ， 将 这 一 名 义 变量 
哑 变 量化 为 3 个 哑 变 量 ， 如 果 3 个 哑 变 量 分 别 记 为 lakel, lake2, lake3, BËZ lake=1 Ff, 
lakel=1， 其 他 情况 下 lakel=0; 同样 lake=2 时 ，lake2=1， 其 他 情况 下 lake2=0; lake=3 时 ， 
lake3=1， 其 他 情况 下 lake3=0。 

(4) 定义 Model... 按 钮 操作 提示 


Model... 号 可 在 此 说 明 交 互 作用 ， 以 及 逐步 回归 模型 ， 见 图 14-26 


C Full factorial (© Custom/Stepwise 
Forced Entry Tems: 
Build Terms 


LJ 
SES 


Stepwise Tems: 


m 


oo Method: 
[Foward en |a ed 











图 14-25 ”选择 参照 分 类 14-26 Model 子 对 话 框 
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(5) 定义 Statistics... 按 钮 操作 提示 


Statistics... 宁可 在 此 说 明 模型 拟 合 信息 ， 以 及 参数 输出 
信息 等 ， 见 图 14-27 


[V Mogel fiting information 

[^ Infomation criteria 

Parameters - l—— 

[V Estimates Confidencelnteal(X) [95 — 
Z Likelihood ralio tests 

P : : 


En... i osa Fa 


Define Subpopulations 
(* Covariate patterns defined by factors and covariates 
(C Covariate pattems defined by variable list below 


EN 





图 14-27 Statistics 子 对 话 框 


Criteria... 按 钮 、Options... 按 钮 、Save... 按 钮 基本 上 与 前 面相 同 ， 所 以 下 面 不 再 做 逐一 
介绍 。 


14.4.3 ”实例 与 结果 解释 
1. 实例 数据 格式 
以 上 实例 的 SPSS 数据 格式 见 图 14-23。 
2. SPSS 操作 步骤 
(1) 定义 频数 操作 提示 


Data 

Weight Cases... 

“Weight case by 
Frequency Variable [>] freq 


(2) 指定 Multinomial logistic 回归 对 话 框 操作 提示 。 


Analyze 
Regression 
Multinomial logistic: - 
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(3) 定义 Multinomial logistic 回归 对 话 框 操作 提示 


Dependent [>] choice 
Reference Category... 
First category 
“SFactor(s) > | lake 

“S Covariate(s)[ > | size 


(4) 定义 Statistics... 按 钮 操作 提示 


“Statistics... 

OM Pseudo R-square 

OM Step summary ”如 果 在 Model... 按 钮 中 选取 了 逐步 回归 方法 ， 
则 选取 Step summary 后 ， 结 果 中 会 给 出 逐步 
回归 每 一 步 进 入 与 剔除 的 效果 表 

DMI Model fitting information ”给 出 模型 拟 合 信 息 , P ñ AR... 模型 越 有 意义 

“OM Cell probabilities 一 输出 观察 频数 和 预测 频数 

DM Classification table 一 输出 观察 与 预测 交叉 分 类 结果 

DM Goodness-of-fit = dB E RE 42 8. 

DM Estimates 全 输出 参数 估计 值 、 标 准 误 、 优 势 比 等 信息 

Confidence Interval: 95% 

OM Likelihood ratio tests 呈 输 出 似 然 比 检 验 结果 


3. SPSS 输出 结果 及 解释 
ER 14-13 数据 中 ，40 个 格子 频数 为 0 有 4 个 ， 占 10% ( 见 结果 14-32)。 


Warnings 


There are 4 (10.0%) cells (i.e., dependent variable levels by subpopulations) with zero frequencies. 


结果 14-32 Warnings 信息 


最 终 模型 包括 size 变量 和 3 个 lake 哑 变 量 ， 获 得 似 然 比 x? 值 为 159.310-95.028= 


64.283， 目 由 度 = 参 数 个 数 -(/-1D)=16 (参数 个 数 为 20， 参 见 结果 14-37), P=0.000 ( 见 结 果 
14-33)。 说 明 模型 中 至 少 有 1 个 自 变 量 有 统计 学 意义 。 











Model Fitting Information 


Model Fitting Criteria | ” Likelihood Ratio Tests p 
Intercept Only 159.310 


结果 14-33 Model Fitting Information 
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拟 合 优势 检验 结果 根据 观察 频数 C O) 与 期 望 理论 频数 ( E) 计算 而 得 ( 见 结 果 14-34), 
Pearson y? - Y (0-Ey JE , Deviance y? - 29 0In(O/E) ， 自 由 度 = 亚 群 数 (J 一 1)- 参 数 个 数 
=8x(5-1)-20=12. MFAS h PKF 0.05， 提 示 模 型 拟 合 尚 可 。 


Goodness-of-Fit 


| | chisaae | df | — Sig. | 
Pearson 15.043 12 .239 
Deviance 17.080 12 .147 
结果 14-34” 拟 合 优 势 检 验 结果 
结果 14-35 给 出 了 3 个 伪 决 定 系数 ， 这 些 值 并 不 高 ， 最 大 也 只 有 27.2%. 


Pseudo R-Square 


Cox and Snell .254 
Nagelkerke .272 
McFadden .106 


结果 14-35 3 个 伪 决 定 系数 


结果 14-36 用 于 判断 自 变量 作用 是 否 有 统计 学 意义 ， 在 第 二 列 中 ，Intercept 项 给 出 了 
全 模型 的 -2 倍 对 数 似 然 值 ，size 项 或 lake 项 是 全 模型 分 别 省 略 了 size 变量 或 lake 变量 后 
的 -2 倍 对 数 似 然 值 。 在 含 size 和 lake 的 全 模型 中 省 略 了 size 后 ，-2 倍 对 数 似 然 值 改变 量 
=116.115-95.028=21.087， 自 由 度 改 变量 =4，P=0.000， 说 明 size 自 变量 对 模型 的 贡献 有 统 
计 学 意义 。 同 理 ， 省 略 lake 后 ，-2 倍 对 数 似 然 值 改变 量 =144.161-95.028=49.133， 自 由 度 
改变 量 =12，P=0.000， 说 明 lake 自 变 量 对 模型 的 贡献 有 统计 学 意义 。 


Likelihood Ratio Tests 















== — Model Fitting Criteria 


-2 Log Likelihood of Reduced Model 


— 95.028(a) 
size 116.115 21.087 
144.161 49.133 


结果 14-36 Likelihood Ratio Tests 结果 






Likelihood Ratio Tests 











结果 14-37 给 出 了 多 项 反应 logit 模型 的 参数 、 假设 检验 结果 、 优 势 比 置信 区 间 等 信息 ， 
是 多 项 回归 模型 的 主要 结果 。 


由 结果 14-37 可 以 得 到 如 下 结果 。 

(1) 4 个 logit 模型 

根据 公式 (14-26) 可 以 得 到 
In(Pz/Pi)=—1.549+1.458size — 1.658lake14-0.9371ake2--1.122lake3 
In (5/ p) - —3.315 — 0.351size  1.243lakel + 2.459lake2 + 2.935lake3 
In ( ĝ4/ Pi) = —2.093 — 0.631size + 0.695lake1 —0.653lake2 + 1.088lake3 
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logistic 回归 EN E = 


In (Ês / f1) - —1.904 + 0.332size + 0.826lake1 — 0.006lake2 +1.516lake3 
其 他 logit 模型 可 根据 公式 (14-27) 获得 。 


Parameter Estimates 





Std. 95% Confidence Interval for Exp(B) 
choice? Error Wald df Sig. Exp(B) Lower Bound Upper Bound 


2 Intercept 
size 
[lake=1} 
[lake=2] 
[lake=3] 
[lake=4] 
Intercept 
size 
[lake=1] 
[lake=2] 
[lake=3] 
[lake=4] 


Intercept 


size 

[lakez1] 
[lake-2] 
[iake=3] 
[lake-4] 
Intercept 
size 

[lake=1] 
Hake=2] 
Hake-3] 
[lake-4] 


a. The reference category is: 1. 


b. This parameter is set to zero because it is redundant. 


结果 14-37 多 项 回归 模型 的 主要 结果 


(2) 预测 概率 模型 
根据 公式 (14-28) 可 以 得 到 


um 1 + exp(-1.54941.458size —1.658lake1-40.9371ake24-1.1221lake3) + --- + 
exp(—1.904 + 0.332size + 0.8261ake1 — 0.006lake2 + 1.516lake3) 
exp(-1.549--1.458size — 1.658lake 1 --0.9371ake24-1.1221ake3) 
` 1+ exp(—1.549+1.458size — 1.658lake 1+0.937lake2+1.122lake3) 十 … 十 
exp(—1.904 + 0.332size + 0.826lake1 — 0.006lake2 + 1.516lake3) 


^ 


























同 理 ， 可 以 得 到 s, pa, ps 。 表 14-13 中 由 自 变量 lake 和 size 组 合成 8 个 亚 群 ， 每 一 亚 群 
EAE lake 和 size 的 取 值 分 别 代 入 上 述 5 个 预测 模型 ， 可 以 获得 如 结果 14-39 所 示 的 期 望 


理论 频数 (Predicted Frequencies )。 


上 3411 


AN 与 统计 分 析 —— 


由 结果 14-38 可 以 看 出 ， 观 察 分 类 与 模型 预测 分 类 的 情况 。 该 例 的 正确 预测 百分率 为 
(84+22)/219 =48.4%。 


Classification 





1 
2 
3 
4 
5 

















Overall Percentage 





结果 14-38 ”观察 分 类 与 模型 预测 分 类 的 情况 


结果 14-39 中 第 1 一 4 列 来 自 表 14-13 原始 数据 。 第 4 列 为 实际 频数 (O)， 第 $ 列 是 
由 预测 模型 公式 〈14-28) 获得 的 期 望 理论 频数 (E). PIW size=0, lake=4 (Bl 3 个 哑 变 量 
均 为 0)，choice=1 (选择 食物 为 鱼 ) 的 期 望 理论 频数 为 ， 
Ej-njfj, i=1l,-,8, j2l-5 f 
由 结果 14-39 可 见 , 这 里 i=4, m =17+1+0+1+3=22, j =1, 将 size=0, lakel-lake2- 


lake3=0 带 入 预测 模型 公式 〈14-28)， 得 到 
1 








Pa "T+ exp(—1.549+1.458size — 1.658lake1+0.937lake2+1.122lake3) + --- + 
exp(—1.904 + 0.332size + 0.826lake1 — 0.006lake2 + 1.516lake3) 
1 
l+ exp(—1.549+0) + exp(—3.315+0) + exp(—2.093+0) + exp(—1.904 + 0) 
=0.6574 
该 值 就 是 结果 14-39 中 最 后 1 列 数据 的 预测 概率 。 由 此 得 到 Ea =n, Pa = 22x0.6574 = 
14.463 。 
第 6 列 “Pearson Residual” 实 际 上 是 标准 化 残 差 Z; ， 计 算 公 式 为 ; 
Z; = Hu B = 2 
Jn; Pyl- Pi) 
本 例 中 
(17 -14.464) 


=1.139 


Za = J22x0.657(1 — 0.657) 
同样 ， 如 果 20 多 的 标准 化 残 差 绝对 值 大 于 1.96， 则 应 考虑 采用 其 他 模型 ， 本 例 没 有 一 
个 标准 化 残 差 绝对 值 大 于 1.96。 
倒数 第 2 列 与 倒数 第 1 列 分 别 是 每 一 亚 群 各 反应 变量 choice 类 别 对 应 的 实际 频率 与 预 
测 概率 。 注 意 ， 在 每 一 亚 群 内 ， 各 实际 频率 或 各 预测 概率 之 和 为 1。 
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Observed and Predicted Frequencies 


— Frequency Percentage 
lake choice Observed Predicted Pearson Residual Observed | Predicted 





一 


- 


1 
2 
3 
4 
5 
1 
2 
3 
4 
5 
1 
2 
3 
4 
5 
1 
2 
3 
4 
5 
1 
2 
3 
4 
5 
1 
2 
3 
4 
5 
1 
2 
3 
4 
5 
1 
2 
3 
4 
5 

















The percentages are based on total observed frequencies in each subpopulation. 


结果 14-39 Observed and predicted Frequencies 信息 


对 于 有 序 分 类 logistic 回归 模型 拟 合 效果 较 差 者 ， 也 可 试用 这 里 所 介绍 的 多 项 分 类 
logistic 回归 。 
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第 I5 m ”对 数 线 性 模型 与 Poisson 回归 





15.1 列 联 表 的 对 数 线性 模型 


当 分 析 两 个 分 类 变量 的 关系 时 ， 卡 方 检验 是 我 们 的 首选 ，Mantel-Haenszel 检验 允许 对 
一 个 混杂 因素 进行 校正 ， 在 一 定 程度 上 使 我 们 有 能 力 分 析 三 维 列 联 表 。 但 是 ， 当 面临 多 个 
分 类 变量 关系 的 分 析 时 ， 这 些 方 法 显得 无 能 为 力 。 即 便 是 三 维 列 联 表 ，Mantel-Haenszel 检 
验 也 不 是 万 能 的 。Mantelj-Haenszel 方法 对 多 个 2x2 交 叉 表 进 行 综合 考虑 , 它 假设 混杂 因素 
的 两 个 二 分 类 变量 各 水 平 的 优势 比 是 一 个 常数 ， 即 泥 杂 因素 并 没有 影响 变量 之 间 的 交互 作 
用 ， 这 在 现实 资料 中 ， 往 往 是 不 成 立 的 ;， 而且， 现实 资料 中 变量 的 多 分 类 也 经 常 是 无 法 回 
避 的 。 许 多 资料 分 析 人 员 对 高 维 表 望 而 却步 ， 不 做 细致 讨论 ， 就 对 资料 进行 合并 降 维 ， 使 
结果 无 法 解释 不 说 ， 甚 至 得 到 一 些 让 人 人 啼笑皆非 的 结论 。 本 章 介 绍 的 对 数 线 性 模型 
(Loglinear Model) 是 处 理 分 类 数据 的 有 力 统计 工具 。 


15.1.1 方法 介绍 


在 对 数 线性 模型 中 ， 每 个 分 类 变量 称 为 一 个 因素 ， 基 本 思想 类 似 于 方差 分 析 和 线性 模 
型 ， 造 成 单元 格 频 数 变异 的 原因 是 各 个 因素 的 作用 ， 所 以 该 方法 对 单元 格 频数 进行 分 解 。 
与 方差 分 析 不 同 的 是 ， 因 素 的 联合 作用 是 相 乘 的 关系 。 为 了 利用 线性 模型 的 分 析 方 法 ， 该 
模型 对 单元 格 频 数 取 自然 对 数 ， 这 恰好 等 于 各 因素 和 其 交互 效应 的 线性 函数 ， 这 就 是 该 模 
型 被 称 为 对 数 线性 模型 的 原因 。 

下 面 就 三 个 分 类 变量 的 情形 阑 明 对 数 线性 模型 的 一 些 基 本 概念 。 这 里 讨论 的 三 个 分 类 
变量 分 别 记 为 4，B，C， 其 中 ，4 有 7 个 水 平 ， 下 有 了 个 水 平 ，C 有 天 个 水 平 ， 这 样 ， 包 
含 所 有 效应 的 对 数 线 性 模型 〈 即 饱和 模型 ，Saturated Model) 为 

log Hik =A + A HAP AC Ag? HARE AARE + AG 
其 中 ，Az 是 指 在 适当 的 模型 假设 〈 即 三 因素 存在 关联 关系 ) 下 单元 格 的 期 望 频 数 ， 1 ， 
AP I AE 分 别 表示 A, B, C 的 主 效应 ， 箭 2? AR TIARO 分 别 表示 A, B, C 两 两 之 间 的 交互 


对 数 线性 模型 与 Poisson 回归 EISE 


效应 〈 称 为 一 级 交互 效应 ，First Order Interaction Effect), AC x A. B, C 三 者 之 间 的 
交互 效应 ( 称 为 二 级 交互 效应 , Second Order Interaction Effect), i-1,2,--,1, j=1,2,…,J， 
k=1,2,…,K 。 而 且 ， 等 号 右边 的 各 被 加 项 统一 称 为 参数 〈Parameter)。 在 许多 情况 下 ， 包 
含 饱和 模型 的 参数 子 集 的 更 简单 模型 ( 即 简约 模型 ，Parsimonious Model) 已 经 足够 用 来 刻 
画 列 联 表 数据 了 。 例 如 ; 

e 完全 独立 模型 (Mutually Independent Model) 

In 4j =A+AM +AP +AL 
e 部 分 独立 模型 (Jointly Independent Model) 
In jy =A + AP + AP + AE + AS 
e 条 件 独立 模型 (Conditionally Independent Model) 
In gy — A AP AT HAE ARS ARE 
e 两 两 关联 模型 (Homogeneous Association Model) 
log i = À + A +AP AE HAGE +AR + ARS 

由 此 ， 同 一 个 列 联 表 ， 可 以 建立 多 个 对 数 线性 模型 。 上 述 所 举 对 数 线性 模型 的 例子 称 
为 层次 模型 (Hierarchical model)。 层 次 模型 的 特点 是 若 模型 中 包含 高 维 的 交互 作用 ， 则 低 
维 的 交互 作用 一 定 包含 在 模型 中 。 当 然 ， 对 数 线性 模型 也 可 以 是 非 层 次 模型 
(Nonhierarchical Model), #Rm 

In £i =A + A AC 
在 实践 中 ， 这 种 模型 用 得 较 少 。 

对 数 线性 模型 的 参数 估计 通常 采用 最 大 似 然 估 计 法 。 假 设 单元 格 频数 服从 多 项 分 布 
(Multinomial Distribution) 或 Poisson 分 布 (Poisson Distribution)， 已 经 证 明 ， 这 两 种 分 布 
假设 下 对 数 线性 模型 参数 的 最 大 似 然 估 计 其 实 是 相等 的 。 由 上 面 模型 表达 式 可 知 ， 模 型 的 
参数 比较 多 , 要 得 到 模型 参数 唯一 的 最 大 似 然 估计 值 , 需要 对 参数 增加 约束 条 件 。 在 SPSS 
中 ， 对 应 于 每 个 变量 的 最 后 一 个 分 类 的 参数 被 置 为 0， 对 于 交互 作用 ， 下 标 包含 任何 一 个 
变量 的 最 后 一 个 分 类 的 参数 也 被 置 为 0， 并 称 这 些 参数 是 元 余 的 〈Redundant) 。 例 如 ， 
对 于 三 个 变量 的 部 分 独立 模型 ，SPSS 默认 : 

M = AF = AE AR AR -0. i=l,2 1, j-12,9,J]. k=1,2,-.,K 

当 分 类 变量 的 某 些 组 合 不 可 能 存在 时 ， 出 现 的 列 联 表 某 些 0 空格 被 称 为 结构 0 
(Structural Zero), 这 种 列 联 表 通 常 称 为 不 完全 列 联 表 (Incomplete Contingency Table), SPSS 
提供 了 一 个 结构 加 权 〈Cell Structure) 选项 ， 可 以 对 含 这 种 数据 的 列 联 表 进 行 识别 一 一 当 
Cell Structure 变量 值 为 非 正 数 时 ， 认 为 是 结构 0 数据 。 另 外 ， 由 于 样本 量 较 小 而 表格 数 较 
多 ， 列 联 表 某 些 空格 也 可 能 出 现 0， 这 种 0 空格 称 为 抽样 0 (Sampling Zero)。 当 列 联 表 中 
单元 格 频数 出 现 0 时 ，SPSS 默认 为 抽样 0， 在 输出 的 数据 信息 表 中 列 出 ， 除 非 在 结构 加 权 
时 “说 明 ”0 空格 是 表示 结构 0。 

利用 对 数 线性 模型 分 析 变量 之 间 有 无 关系 ， 就 是 统计 检验 表示 交互 作用 的 参数 是 否 等 
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(SPSS 与 统计 分 析 — 


于 零 。 若 统计 检验 尚 不 能 认为 参数 为 零 ， 则 认为 变量 间 的 关系 存在 ， 否 则 ， 认 为 变量 相互 
独立 。 

SPSS 中 提供 了 三 个 过 程 ，General 过 程 、Logit 过 程 、Model Selection 过 程 ， 它 们 分 别 
用 于 不 同 的 研究 目的 ， 使 用 的 算法 也 不 尽 相同 ， 但 参数 估计 结果 都 是 一 样 的 ， 下 面 逐 一 进 
行 解释 。 


15.1.2 ”实例 与 操作 

1. General 过 程 

General 过 程 用 于 建立 分 层 或 非 分 层 对 数 线性 模型 。 通 常 ， 分 析 人 员 在 调用 这 个 过 程 
之 前 , 已 经 对 数据 有 了 基本 的 把 握 , 知道 需要 建立 什么 样 的 模型 , 需要 检验 的 参数 有 哪些 ， 
拟 合 模型 纯粹 是 为 了 验证 某 些 结论 是 否 成 立 ， 所 以 这 是 - -个 证 实 性 研究 过 程 。 此 过 程 不 区 
分 应 变量 和 自 变量 ， 所 有 的 分 类 变量 均 作为 影响 单元 格 频数 改变 的 因素 加 以 分 析 。 这 里 的 
参数 估计 方法 是 Newton-Raphson 算法 。 

(1) 一 个 三 因素 2 水 平 的 对 数 线性 模型 

1992 年 ,美国 莱特 州立 大 学 医学 院 与 俄 亦 俄 州 代 顿 统一 健康 服务 社 合 
作 进 行 了 一 项 调查 。 该 调查 就 在 中 学 的 高 年 级 是 否 曾经 柄 酒 、 抽 烟 或 者 豚 大 麻 询问 了 来 自 
代 顿 附近 非 城市 地 区 的 2276 名 学 生 ， 结 果 见 表 15-1 (数据 文件 见 datal5-1.xls 或 
datal5-1.sav )。 试 分 析 该 地 区 中 学 高 年 级 学 生 柄 酒 、 抽 烟 和 吸 大 麻 三 种 行为 是 否 存在 关联 
关系 。 


X151 ”中 学 高 年 级 学 生硬 酒 、 抽 烟 和 吸 大 麻 的 情况 


RARR 
醒酒 抽烟 
是 58 
是 是 911 538 
否 44 456 
E 是 3 43 


解 : 这 是 一 个 三 因素 2x2x2 交 叉 列 联 表 ， 其 中 A AREMA, p 因素 是 抽烟 ，C 因 
素 是 吸 大 麻 。 要 求 分 析 柄 酒 、 抽 烟 和 吸 大 麻 三 种 行为 是 否 存 在 关联 关系 ， 实 际 上 是 要 回答 
三 种 行为 之 间 是 否 存在 二 级 交互 效应 (Second Order Interaction Effect)， 即 检验 : 

Ho: AC =0, i,j,k=1,2 
可 以 从 两 个 角度 进行 考虑 。 一 方面 ， 直 接 拟 合 饱 和 模型 : 
log Hik =A+AM AP t AE + AP + ABC + AC + ARPE 
计算 各 参数 ， 并 对 Ho: AUC =0 进行 假设 检验 ， 若 所 有 二 级 交互 效应 的 假设 检验 均 不 拒绝 
Ho ， 则 可 认为 三 种 行为 之 间 不 存在 关联 关系 ， 否 则 认为 三 者 相关 。 另 一 方面 ， 三 维 列 联 表 
的 饱和 模型 包含 了 二 级 交互 效应 项 ， 在 饱和 模型 中 将 该 项 去 掉 ， 直 接 拟 合 两 两 关联 模型 ， 
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log Lj =A + A HAP AE HARP + AW + ARC 
看 看 拟 合 优 度 检验 两 两 关联 模型 相对 于 饱和 模型 粹 (这 里 就 是 似 然 比 统计 量 ) 的 增加 有 没 
有 统计 学 意义 ， 如 果 无 ， 则 说 明 二 级 交互 效应 不 存在 ， 下 面 从 这 一 角度 进行 分 析 。 
(2) Loglinear 过 程 操作 提示 
由 于 输入 的 资料 是 频数 资料 ， 首 先 应 对 数据 进行 加 权 处 理 。 即 单 击 Data— Weight 
Cases...， 将 count 选 入 Frequency Variable. 
调用 Loglinear 3Rifz, BI Analyze—Loglinear—General.. CAnlg 15-1 所 示 )。 


ICI, Marijuana -先入 分 类 变量 





单元 格 中 频数 服从 多 项 分 布 


15-1 一 般 对 数 线 性 模型 对 话 框 


其 他 选项 的 含义 如 下 : 

* Cell Covariate(s)， 定 义 需 要 控制 的 连续 型 协 变量 ; 
* Cell Structure， 定 义 权重 变量 ， 

e Contrast Variable(s)， 定 义 连续 型 对 照 变量 。 


* 操作 提示 ( 如 图 15-2 所 示 ) 


Specify Model TOT WE 
(* Custom 全 用 户 自 定义 模型 
“Build Term(s): Interaction 号 定义 交互 效应 


AxCĪ] Terms in Model 
AxM >| Terms in Model 
CxM P] Terms in Model 
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图 15-3 ”模型 输出 结果 的 有 关 选 项 对 话 杠 


其 他 选项 的 含义 如 下 : 

* Design matrix， 输 出 设计 矩阵; 

e Estimates， 输 出 模型 中 各 系数 的 估计 值 ; 

* Deviance residuals， 输 出 偏离 残 差 图 ; 

* Normal probability for deviance， 输 出 偏离 残 差 的 正 态 概 率 图 ; 
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e Maximum iterations， 采 用 迭代 法 进行 参数 估计 时 最 大 的 友 代 次 数 ; 

* Convergence, 收 全 标准， 默认 为 0.001; 

* Delta， 设 置 饱和 模型 的 校正 系数 ， 默 认为 0.5。 

(3) 结果 解释 

结果 15-1 是 数据 的 基本 信息 ， 提 示 有 8 条 原始 记录 、2276 条 权重 记录 被 纳入 模型 ， 
它们 共 形 成 8 个 格子 , 没有 结构 0 或 者 抽样 0 数据 出 现 。 并 且 提 示 数 据 包含 三 个 分 类 变量 ， 
每 个 分 类 变量 均 含 2 个 水 平 。 


Data Information 
N 
“Cases — Vaid — 8. 
Missing 0 
Weighted Valid 2276 
Cells Defined Cells 8 
Structural Zeros 0 
Sampling Zeros 0 
Categories Alcohol 2 
Cigarette 2 
Marijuana 2 


结果 15-1 数据 的 基本 信息 


结果 15-2 是 参数 估计 过 程 的 迭代 信息 ， 提 示 最 大 迭代 次 数 是 20 次 ， 用 于 判断 收敛 的 
相对 容忍 度 为 0.00100, 最 终 的 最 大 绝对 差别 是 2.0E-005, 最 终 的 最 大 相对 差别 是 6.6E-006， 
模型 迭代 求解 了 8 次 。 结 果 15-2 的 下 方 还 给 出 了 一 些 模 型 信息 , 分 别 是 模型 中 单元 格 频数 
服从 多 项 分 布 ， 拟 合 的 模型 是 两 两 关联 模型 ， 参 数 估计 的 迭代 求解 是 收敛 的 。 


Convergence Information" 


Maximum Number 
of Iterations 


Converge Tolerence .00100 


20 


Final Maximum c 
Absolute Difference 705-005 
Final Maximum 

Relative Difference 6.6E-006 
Number of Iterations 8 


8. Model: Multinomial 
b. Design: Constant + A+C+M+A*C+A*M+C*M 


€. The iteration converged because the maximum 
absolute changes of parameter estimates is less 
than the specified convergence criterion. 


结果 15-2 参数 估计 过 程 的 迭代 信息 


结果 15-3 是 我 们 最 关心 的 拟 合 优 度 检 验 结果 。 可 见 ， 似 然 比 检验 G? =0.374,df = 1, 
` P=0.541, Pearson 卡 方 检验 x? =0.401,df =1,P =0.527 ,两 个 检验 的 P 值 都 较 大 , 均 说 明 
该 模型 对 数据 拟 合 较 好 。 但 是 ， 我 们 关心 的 是 两 两 关联 模型 相对 于 饱和 模型 炳 的 增加 有 没 
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有 统计 学 意义 。 由 于 饱和 模型 的 似 然 比 统计 量 等 于 0， 自由 度 也 为 0, 于 是 ，AG? = 0.374 ， 
Adf =1， 相 应 的 入 分布 已 =0.541， 因 此 ， 按 水 准 w=0.05 可 以 认为 柄 酒 、 抽 烟 和 吸 大 麻 
三 种 行为 之 间 不 存在 关联 关系 。 


Goodness-of-Fit Tests*^ 





Value df Sig. 
Likelihood Ratio .374 1 .541 
Pearson Chi-Square .401 1 .527 


a. Model: Multinomial 
b. Design: Constant + A+C+M+A*C+A*M+C*M 


结果 15-3” 拟 合 优 度 检验 结果 


结果 15-4 列 出 了 每 个 单元 格 的 观测 频数 、 期 望 频数 、 原 始 残 差 、 标 准 化 残 差 ( 又 称 
Pearson 残 差 )、 调 整 残 差 及 偏离 残 差 值 。 大 部 分 学 者 推荐 使 用 调整 残 差 进行 对 数 线性 模型 
的 残 差分 析 ， 大 样本 时 ， 调 整 残 差 服 从 标准 正 态 分 布 ， 若 较 多 格子 的 调整 残 差 的 绝对 值 不 
超过 2， 则 说 明 数 据 拟 合 较 好 ， 否 则 怀疑 它 为 异常 值 。 由 数据 表 可 见 ， 全 部 调整 残 差 的 绝 
对 值 均 落 在 2 以 内 ， 说 明 尚 不 能 认为 模型 拟 合 效 果 不 好 ， 为 了 得 到 较 确 切 的 结论 ， 我 们 需 
要 做 进一步 的 残 差 分 析 。 


Cell Counts and Residuals*^ 








Observed Expected Standardized Adjusted 

Alcohol Cigarette Marijuana Count % Count % Residual Residual Residual Deviance 
No No No 279 12.3% 279.617 12.3% -.617 -.039 -.633 -1.110 
Yes 2 -1% 1.383 -1% .617 .525 .633 1.215 

Yes No 43 1.9% 42.383 1.9% .617 .096 .633 1.115 

Yes 3 -1% 3.617 -2% -.617 -.325 -.633 -1.059 

Yes No No 456 20.096 455.383 20.096 .617 .032 .633 1.111 
Yes 44 1.9% 44.617 2.0% -617 -.093 -.633 -1.107 

Yes No 538 23.6% 538.617 23.7% -.617 -.030 -.633 -1.110 

Yes 911 40.0% 910.383 40.0% .617 .026 .633 1.111 





a. Model: Multinomial 
b. Design: Constant « A « C4 Mc A* C-A* M«C*M 


HR. -ell Counts and Residuals 信息 


原始 残 差 (Raw Residual) 的 计算 公式 为 
残 差 = 观测 频数 ~ 期 望 频数 





即 观测 频数 与 期 望 频数 之 差 。 
标准 化 残 差 (Standardized Residual) 的 计算 公式 为 
标准 化 残 差 = AE 
ma Ett) 
n 
其 中 ， 是 样本 量 。 


调整 残 差 (Adjusted Residual) 和 偏离 残 差 (Deviance Residual) 的 计算 较 复杂 ， 读 者 
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可 以 参阅 有 关 参 考 文献 。 
最 后 ，SPSS 还 给 出 了 三 个 诊断 图 : 观测 频数 、 期 望 频数 和 调整 残 差 两 两 对 应 的 散 点 
图 ， 调 整 残 差 的 正 态 Q-Q 图 及 调整 残 差 的 去 势 正 态 Q-Q 图 ( 见 结果 15-55. 


Multinomial Model 


Observed Counts 





Expected Counts 








Adjusted Residuals 


Observed Counts Expected Counts Adjusted Residuals 


Analysis weighted by count 


(a) 观察 频数 、 期 望 频数 和 调整 残 差 两 两 对 应 的 散 点 图 


























Normal Q-Q Piot of Adjusted Residuals Detrended Normal Q-Q Plot of Adjusted Residuals 
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Adjusted Residuals Adisted Residuals 


Analysis weighted by count Analysis weighted by count 
(b) 调整 残 差 的 正 态 Q-Q 图 (c) 调整 残 差 的 去 势 正 态 Q-Q 
结果 15-5 SPSS 给 出 的 诊断 图 


按照 对 数 线性 模型 的 残 差 理论 ， 大 样本 时 ， 调 整 残 差 近似 服从 标准 正 态 分 布 。 因 此 ， 
关于 观测 频数 和 期 望 频 数 的 散 点 应 该 是 随机 分 布 在 横 轴 的 两 边 ， 而 且 大 部 分 集中 在 正 负 2 
之 间 。 由 散 点 图 可 见 ，8 个 点 明显 存在 着 一 定 的 趋势 ， 说 明 残 差 不 服从 正 态 分 布 ， 拟 合 的 
模型 尚 不 能 完全 解释 8 个 单元 格 频数 的 分 布 规律 。 后 面 的 调整 残 差 的 正 态 Q-Q 图 和 调整 残 
差 的 去 势 正 态 Q-Q 图 进一步 说 明了 这 一 点 。 

2. Logit 过 程 

Logit 过 程 用 于 分 析 因 果 关 系 已 经 明确 的 对 数 线性 模型 ， 应 变量 和 自 变 量 在 这 里 必须 
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区 分 开 。 该 过 程 只 引入 模型 定义 框 中 定义 的 项 与 应 变量 间 的 交互 作用 ， 不 再 把 其 他 项 引入 
模型 。 另 外 ， 对 于 高 维 列 联 表 ， 用 General 过 程 分 析 ， 参 数 估计 和 检验 计算 量 将 相当 庞大 ， 
在 因果 关系 明确 、 分 析 的 参数 及 其 检验 已 知 时 ， 用 Logit 过 程 将 大 大 减少 计算 量 。Logit 过 
程 参 数 估计 方法 跟 General 一 样 ， 都 是 采用 Newton-Raphson 算法 。 

(1) 一 个 区 分 应 变量 和 自 变 量 的 对 数 线性 模型 

为 研究 心肌 梗死 与 近期 使 用 口服 避孕 药 之 间 的 关系 , 采用 病例 -对 照 研 
究 方 法 ， 调 查 了 234 名 心肌 梗死 病人 与 1742 名 对 照 者 使 用 口服 避孕 药 的 情况 。 考 虑 到 年 
龄 是 一 个 可 能 的 混杂 因素 ， 将 其 纳入 调查 ， 得 到 表 15-2 资料 〈 数 据 文件 见 datal5-2.xls 或 
datal15-2.sav)， 试 对 该 资料 进行 分 析 。 


表 15-2 心肌 梗死 与 近期 使 用 口服 避孕 药 的 资料 表 





年 龄 组 
口服 
25~29 30—34 35—39 40—44 45-49 
Bag ”一 — — — —  — — ”一 一 一 一 
使 用 未 使 用 合计 ”使 用 未 使 用 合计 GUN 未 使 用 合计 使 用 未 使 用 合计 ”使 用 未 使 用 合计 
病例 组 4 2 6 9 12 21 4 33 37 6 65 71 6 93 99 
HRA 62 224 286 33 390 423 26 330 356 9 362 371 5 301 306 


合计 66 226 292 42 40f 444 30 363 393 15 47 442 11 34 405 
-一 


解 : 这 个 实例 完全 可 以 用 Mantel-Haenzel 分 层 x? 检验 进行 分 析 〈 参 见 第 6 章 )， 这 里 
从 对 数 线性 模型 的 角度 加 以 考虑 。 

分 别 记 因素 4 表示 年 龄 组 别 ， 因 素 B 表示 近期 使 用 口服 避孕 药 与 否 ， 因 素 C 表示 病例 - 
对 照 组 别 。 认 为 心肌 梗死 与 近期 使 用 口服 避孕 药 有 关联 ， 实 质 上 就 是 说 两 者 之 间 存 在 交互 
作用 。 类 似 地 ， 若 心肌 梗死 与 年 龄 层 之 间 的 交互 作用 存在 ， 则 说 明年 龄 确实 是 此 研究 应 该 
控制 的 混杂 因素 。 于 是 ， 可 以 将 因素 C 看 成 是 应 变量 ， 考 虑 因素 A 和 8B 与 它 是 否 存 在 交互 
作用 ， 并 检验 这 种 交互 作用 有 无 统计 学 意义 。 按 照 这 一 思路 ， 建 立 Logit 对 数 线 性 模型 。 

(2) Logit 过 程 操作 提示 

由 于 输入 的 是 频数 资料 ， 首 先 应 对 数据 进行 加 权 处 理 ， 具 体操 作 同 前 所 述 。 单 击 
Analyze 一 Loglinear 一 logit...， 弹 出 Logit 对 数 线性 模型 对 话 框 〈 见 图 15-4)。 








图 15-4 Logit 对 数 线性 模型 对 话 框 
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读者 应 该 已 经 熟悉 了 这 一 界面 ， 它 跟 General 过 程 几乎 完全 一 致 ， 解 释 也 一 样 ， 唯 一 
不 同 的 是 界面 的 左下 方 少 了 Distribution of Cell Counts 选项 框 , 这 也 是 Logit 过 程 与 General 
过 程 的 重要 区 别 。 用 SPSS 建立 Logit 对 数 线性 模型 ， 系 统 自动 假设 单元 格 频 数 服 从 多 项 
分 布 ， 所 以 这 个 模型 又 称 为 多 项 Logit 模型 (Multinomial Logit Model), 


3 操作 选项 说 明 
人 病例 -对 照 组 别 [C] 加 Dependent ”= 定义 应 变量 
"9 年 龄 组 [AJ、 近 期 使 用 VRGURAGU ”= 定义 自 变量 ， 即 影响 因素 
P] Factor(s) — 
“Model... l ss u eri HS 15-5 Pp SE 3L Logit wat š, 


性 模型 对 话 框 





Build Term(s) 


[mp 53 





图 15-5 定义 Logit 对 数 线性 模型 对 话 框 
> 操作 选项 说 明 
"BSpecify Model ' 
— €* Custom oe Bom 
Build Term(s): Main effects 一 定义 主 效应 ， 直 接 分 析 没有 交互 项 的 不 饱和 模型 ” 
"A P] Terms in Model à 
"B |P | Terms in Model ` 
Continue 
与 General 过 程 同一 界面 相 比 ， 这 里 多 了 一 个 Include constant for dependent 选项 ， 该 
选项 “询问 ”针对 应 变量 的 自 定义 模型 是 否 包 含 常数 。 
细心 的 读者 自然 会 问 ,在 分 析 问 题 时 不 是 要 进行 交互 作用 的 检验 吗 ? 为 什么 这 里 好 像 
没有 将 交互 作用 纳入 ? 其 实 ， 在 Logit 过 程 ， 系 统 默 认 是 分 析 自 定义 模型 中 效应 与 应 变量 
之 间 交 互 作 用 的 , 这 里 我 们 将 因素 A 和 B 选 入 自 定义 模型 框 , 系统 自动 会 分 析 C*A、C*B 
项 ; 若 选 中 Include constant for dependent 选项 ， 则 系统 最 终 建 立 的 模型 是 
In Lijk = constant + AE AIC. ABC 
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在 输出 结果 中 可 以 看 到 这 一 结论 。 
在 图 15-4 中 单 击 Options.…. 按 钮 ， 弹 出 选项 对 话 框 ， 其 中 有 关内 容 说 明 如 下 。 


"BFrequencies cir 出 频数 表 

"BResiduals 一 输出 原始 残 差 值 

"Estimates cdi 参数 估计 值 及 其 假设 检验 结果 。 i 
"B Adjusted residuals cii REALE B p ie 
Normal probability for adjusted {o 和 出 调整 交差 的 正 态 概率 图 
“Continue | 


这 里 的 Options 界面 与 General 过 程 的 Options 界面 完全 相同 ， 解 释 也 一 样 ， 这 里 不 再 
TO. 

(3) 结果 解释 

这 里 的 部 分 结果 与 General 过 程 具有 同样 的 功能 ， 下 面 就 关键 结果 进行 解释 。 

从 拟 合 优 度 检验 的 结果 来 看 〈 见 结果 15-6)， 按 水 准 @ = 0.05 ， 此 模型 较 好 地 拟 合 了 调 
查 数据 。 结 果 下 的 注释 验证 了 我 们 先前 所 说 的 模型 设计 方式 。 


Goodness-of-Fit Tests ab 


Value df Sig. 
Likelihood Ratio 6.536 4 .163 
Pearson Chi-Square 6.392 4 .172 


8. Model: Multinomial Logit 
b. Design: Constant + C « C' A« C* B 


结果 15-6 ” 拟 合 优 度 检验 结果 


Logit 过 程 还 给 出 了 对 应 变量 的 离散 性 (Dispersion) 分 析 ， 用 于 分 析 模 型 拟 合 的 效果 。 
结果 15-7 Ca) 和 结果 15-7 (b) 分 别 是 对 应 变量 的 离散 趋势 分 析 (Analysis of Dispersion) 
和 关联 测量 (Measure of Association), 


Analysis of Dispersion ab 





8, 
Entropy Concentration df Measure of Association ab 
—— == Y RS 
Model 75.736 31.800 5 Entropy "OS 
Residual 643.068 380.779 1970 "m dh 
Total 718.804 412.579 1975 
8. Model: Multinomial Logit 
8. Model: Multinomial Logit b. Design: Constant + C x C* A« C*B 
b. Design: Constant + C « C' A« C* B 
(a) (b) 


结果 15-7 分 析 模 型 拟 合 的 效果 


SPSS 将 应 变量 的 离散 性 分 解 成 : 由 模型 解释 的 离散 性 十 不 能 由 模型 解释 〈 即 残 差 ) 
的 离散 性 。 在 离散 趋势 分 析 结 果 中 ，Entropy 一 列 对 应 的 是 Shannon #848, Concentration 是 
集中 趋势 测量 ， 都 分 解 成 能 被 模型 解释 的 部 分 和 不 能 被 模型 解释 的 部 分 ， 自 由 度 也 做 了 相应 
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的 分 解 。 在 关联 测量 结果 中 ，Entropy 一 行 对 应 的 是 用 科 标 准 测量 离散 性 时 ， 应 变量 对 总 模 
型 的 贡献 率 ， 为 0.105， 这 相当 于 回归 分 析 中 的 决定 系数 R? ， 计 算 方法 也 完全 类 似 ， 这 里 
R? =75.736/718.804 = 0.105 

Concentration. 一 行 对 应 的 是 采用 集中 趋势 标准 测量 时 ， 应 变量 对 总 模型 的 贡献 率 为 
0.077， 计 算 方法 与 粹 标准 一 样 。 可 见 ， 应 变量 对 总 模型 的 解释 都 比较 小 ， 一 个 可 能 原因 是 因 
# A #ll B 存在 比较 强 的 相关 性 ， 即 年 龄 段 与 口服 避 有 茸 药 强 相关 ， 根 据 生 活 常识 ， 这 是 比较 容 
易 解释 的 。 

接 下 来 , SPSS 给 出 的 是 单元 格 频数 与 残 差 (Cell Counts and Residuals) 结果 , 与 General 
过 程 的 结果 相 比 ， 百 分 比 (%) 一 栏 给 出 的 不 再 是 相应 频数 占 总 样本 量 的 百分率 ， 而 是 对 
应 变量 的 不 同 水 平 相 加 之 和 为 100%。 这 也 是 从 Logit 模型 优势 (Odds) 统计 量 的 角度 考虑 
的 ， 便 于 对 应 变量 进行 解释 。 

结果 15-8 为 所 有 可 能 参数 的 估计 值 。 在 SPSS 中 ,参考 水 平 对 应 的 参数 被 置 为 元 余 参 
数 ， 模 型 拟 合 时 系统 自动 将 其 设置 为 0， 参考 水 平 对 应 的 参数 无 法 进行 假设 检验 。 


Parameter Estimates ^d 





95% Confidence interval 


Parameter Estimate Std. Error z Sig. Lower Bound Upper Bound 
Constant [A 2 1] * [B = 1] 41 

[^ - 1] ` [B - 2] 5.408? 

IA=2J * [B = 1] 3.591? 

[^ « 2] * [B - 2] 5.958? 

[A7 3]* [B = 1] 3.101? 

[^ 53] ` [B 2 2] 5.810? 

[A 7 4] " [B - 1] 2.169* 

[A 2 4] * [B = 2] 5.892? 

[A 2 5] * [B = 1] 1.5943 

(^-5)* (8-21 5.707* 
[C21] -1.176 417 -10.062 .000 -1.405 -.947 
IC =2] e . . . . . 
IC 21) ]A 2 1] -3.194 .447 -7.142 .000 -4.071 -2.318 
[C - 11 * [A 2 2] -2.056 260 -7.920 .000 -2.565 -1.547 
[C - 1]* [A - 3] -1.260 .213 -5.911 .000 -1.678 -.842 
[C 2 1] * [A 4] -.546 .175 -3.119 .002 -.890 -.203 
[C - 1)* [A - 5] e 
[C - 2]* [A 2 1] 中 
IC=2] * [A = 2] e 
[C - 2] * [A 2 3] e 
(C221 I4] e 
[C =2] * [A = 5] e . . . . . 
[C- 1) IB» 1] 1.385 .251 5.529 .000 .894 1.876 
IC 2 1)* f8 2 2] e 
[C -2]* (B- 1) e 
[C = 2] * [B = 2] e 





8. Constants are not parameters under the muttinomial assumption. Therefore, their standard errors are not calculated. 
b. This parameter is set to zero because it is redundant. 

C- Model: Muttinomial Logit 

d. Design: Constant :C+ C' A« C* B 


结果 15-8 ”所 有 可 能 参数 的 估计 值 


| 425 


NRN 与 统计 分 析 


这 里 关心 的 是 
HEC: A =0, i=12,-.,5; kz12 
Hi^: AW =0, j=1,2; k=1,2 

是 否 成 立 。 结 果 中 ，Z = Estimate/ Std Error ， 理 论 分 布 是 标准 正 态 分 布 。 由 检验 结果 可 知 ， 
oka =0.05, P4 HEC I HOC ， 即 认为 心肌 梗死 与 近期 使 用 口服 避孕 药 有 关联 ， 年 龄 
是 此 研究 应 该 控制 的 混杂 因素 。 进 一 步 ， 由 AB 对 应 的 置信 区 闻 的 正 负 ， 可 以 认为 使 用 口 
服 避 孕 药 比 没有 使 用 口服 避孕 药 更 容易 导致 心肌 梗死 ， 即 口服 避孕 药 是 心肌 梗死 的 危险 因 
素 ， 优 势 比 (Odds Ratio) 的 估计 值 是 el38 =3.99 ，95% 置 信 区 间 为 [e0994, 01876] = 
[2.4449,6.5273] 。 

注意 ， 读 者 用 General 过 程 拟 合 对 数 线 性 模型 

log Hir =A+AM +AP AE FAST + A + ARS 

会 发 现 ， 上 述 Logit 对 数 线性 模型 的 参数 估计 与 该 模型 相应 参数 估计 完全 一 致 ， 唯 一 不 同 
的 是 Logit 对 数 线性 模型 有 如 此 之 多 的 常数 估计 ， 而 该 模型 只 有 一 个 常数 估计 值 。 那 么 ， 
“两 者 之 间 是 否 存在 某 种 联系 ? 答案 是 确定 的 。 事 实 上 ， 每 一 个 Logit 对 数 线 性 模型 都 有 相 
应 的 对 数 线 性 模型 与 其 相对 应 ， 而 且 ，Logit 对 数 线性 模型 的 各 常数 估计 值 其 实 是 将 自 变 
量 对 应 的 参数 估计 值 计 入 原 对 数 线性 模型 的 常数 项 得 到 的 。 

在 问题 分 析 中 ， 可 以 用 Crosstab 过 程 对 该 资料 进行 Mantel-Haenzel 24 x^ 检验， 这 
里 留 作 练习 。 

3. Model Selection 过 程 

数据 分 析 ， 往 往 是 从 探索 性 研究 开始 的 。 对 列 联 表 资 料 ， 变 量 之 间 复 杂 的 关联 关系 事 
先 通常 不 能 知晓 ， 即 使 有 所 了 解 ， 分 析 之 前 也 常常 有 所 质疑 ， 而且， 同一 个 列 联 表 ， 我 们 
可 以 建立 多 个 对 数 线性 模型 ， 那 么 怎样 得 到 一 个 较 好 的 简约 模型 描述 当前 表格 数据 ， 是 我 
们 始终 关心 的 。 此 时 ， 预 分 析 是 一 个 必要 的 步骤 。Model Selection 过 程 可 以 帮助 我 们 在 众 
多 的 对 数 线性 模型 中 选 出 “最 佳 模 型 ”， 使 我 们 对 变量 之 间 的 关系 有 所 把 握 。 该 过 程 提供 
了 两 种 模型 选择 策略 ， 即 向 后 剔除 法 和 逐一 进入 法 。 

必须 指出 的 是 ，Model Selection 过 程 仅仅 是 一 个 预 分 析 过 程 ， 它 不 能 像 General 过 程 
和 Logit 过 程 一样 给 出 具体 的 参数 估计 和 检验 结果 ， 所 以 选 出 “最 佳 模型 ”后 ， 还 需要 利 
用 另外 两 个 过 程 做 进一步 的 分 析 。 与 General 过 程 不 同 的 是 ，Model Selection 过 程 只 拟 合 
分 层 对 数 线性 模型 。 这 里 只 可 以 对 饱和 模型 给 出 参数 估计 和 检验 结果 ， 而 且 算 法 采用 迭代 
比例 拟 合 (Iterative Proportional Fitting? iX. 

(1) 模型 举例 

EA 15-1 要 求 用 一 个 合适 的 对 数 线性 模型 拟 合 调查 地 区 的 中 学 高 年 级 学 生 酮 酒 、 抽 烟 
和 吸 大 麻 情 况 ， 以 发 现 三 种 行为 之 间 可 能 的 联系 ， 这 时 ， 我 们 用 Model Selection 过 程 可 以 
得 到 一 个 满意 的 答案 。 

(2) Model Selection 过 程 操作 提示 

同样 , 数据 加 权 是 一 个 必要 的 步骤 。 紧 接着 调用 Model Selection 过 程 , 即 单 击 Analyze 
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—Loglinear— Model Selection...， 弹 出 如 图 15-6 所 示 的 Model Selection 过 程 对话 框 。 





图 15-6 Model Selection 过 程 对 话 框 


(3) 结果 解释 
5 u 息 和 变量 水 平 ， 读 者 一 看 即 明 。 
结果 15-9 列 出 初始 模型 包含 二 级 交互 效应 Alcohol*Cigarett*Marijuan〈 由 于 识别 变量 
长 度 是 8， MERE 8 位 以 后 的 字母 )， 提 示 指 出 对 饱和 模型 每 个 观测 的 
单元 格 频 数 加 0.5 作为 校正 值 。 下 方 是 对 饱和 模型 的 迭代 信息 。 
******** HIERARCHICAL LOG LINEAR ******** 


DESIGN 1 has generating class 
Alcohol*Cigarett*Marijuan 


Note: For saturated models .500 has been added to all observed cells. 
This value may be changed by using the CRITERIA = DELTA subcommand. 


The Iterative Proportional Fit algorithm converged at iteration 1. 


The maximum difference between observed and fitted marginal totals is .000 
and the convergence criterion is 211 


结果 15-9 ”数据 信息 和 度量 水 平 


SPSS 接着 给 出 的 是 饱和 模型 的 观测 频数 、 期 望 频数 和 残 差 ， 拟 合 优 度 检验 说 明 饱 和 
模型 很 好 地 拟 合 了 数据 ， 但 这 并 没有 实际 意义 ， 所 以 无 论 是 似 然 比 卡 方 值 还 是 Pearson 卡 
方 值 显示 为 0，SPSS 13.0 都 将 尸 值 设 为 缺失 。 

结果 15-10 是 令 人 感 兴趣 的 模型 筛选 信息 ， 给 出 了 天 维 〈 即 K-1 K) 及 更 高 维 交 互 作 
用 是 否 为 零 的 假设 检验 ， 熟 悉 对 数 线性 模型 的 读者 理解 起 来 可 能 是 容易 的 ， 但 对 刚刚 初学 
者 往往 觉得 繁 难 ， 下 面 就 此 进行 详细 的 剖析 。 


***-*«*** HIERARCHICAL LOG LINEAR ***e**es 





Tests that K-way and higher order effects are zero. 


K DF  L.R.Chisq Prob Pearson Chisq 
1 374 .5408 





3 
2 4 1286.020 .0000 1411.386 
1 7 2851.461 .0000 2676.337 


结果 15-10 ”模型 筛选 信息 
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其 实 ， 当 把 这 3 个 假设 检验 的 零 假 设 与 备 择 假 设 列 出 来 时 ， 读 者 就 会 觉得 一 目 了 然 。 

e K=3, H): AE ERE HERI, BWA (i, j,k = 0.D 全 为 零 。 

° K=2, Hà: EE DR K tp, EAE HAE, BIAS, ARC, ARE LAT C G, j,k 20, £ 

为 零 。 

° K-l, H): 零 模型 ， 即 APLAT LAELAGPLARC LAC LAE (Jk 20) EAF. 

需要 说 明 的 是 吾 ;，， 它 表示 表格 资料 服从 均匀 分 布 ， 即 样本 均匀 分 布 于 各 单元 格 。 

4 K =3 FF, 两 种 检验 不 拒绝 H) ， 可 以 认为 酮 酒 、 抽 烟 和 吸 大 麻 三 种 行为 之 间 的 二 级 
交互 作用 没有 统计 学 意义 ;， 当 到 = 1，2 时 ,检验 均 拒绝 零 假 设 ， 提 示 柄 酒 、 抽 烟 和 吸 大 麻 
之 间 可 能 存在 一 级 交互 作用 。 

类 似 地 , 结果 15-11 是 检验 天 维 交互 作用 是 否 有 统计 学 意义 , 采用 的 是 模型 间 的 焙 ( 即 
似 然 比 卡 方 ) 或 Pearson 卡 方 值 之 差 作为 相应 的 卡 方 值 ， 自 由 度 之 差 为 相应 的 自由 度 ， 以 
判断 模型 间 是 否 有 差异 。 例 如 ， 零 模型 

In Jj = À (i, j,k =0,1) 
与 存在 主 效 应 的 模型 
In Uj = À- Ai + AP AE G, j,k =0,D 

z BJ mz 2 > 

AG = 2851.461—1286.020 21565.441, dfi=7-4=3 
Pearson 卡 方 为 

A.G = 2676.337 —1411.386 21264.951, dfs=7-4=3 
也 就 是 结果 15-11 中 天 =1 的 内 容 。 同 样 ， 可 以 得 到 玉 = 2,3 的 值 。 最 终 的 检验 结果 与 前 面 
相同 。 


Tests that K-way effects are zero. 


K DF L.R. Chisq Prob Pearson Chisq Prob Iteration 
3 1565441 .0000 1264.951  .0000 0 





1 
2 3 1285.646 . .0000 0 
3 .374 401  . 0 


结果 15-11 检验 天 维 交互 作用 是 否 有 统计 学 意义 


结果 15-12 是 模型 筛选 过 程 ， 我 们 在 操作 中 选取 的 是 向 后 剔除 法 ， 剔 除 标准 是 P 值 小 
于 0.050。 结 果 中 首先 给 出 了 初始 模型 〈 这 里 是 饱和 模型 ) 的 拟 合 优 度 检验 〈 由 于 Model 
Selection 默认 各 模型 都 是 层次 模型 ， 所 以 在 模型 说 明 时 只 给 出 最 高 阶 交互 作用 项 ， 如 这 里 
的 饱和 模型 用 Alcohol*Cigarett* Marijuan 表示 ) ， 检 验 结果 说 明 二 级 交互 作用 没有 统计 学 
意义 ， 结 论 与 前 面 一 致 。 

如 果 将 初始 模型 中 的 最 高 阶 交 互 作 用 去 掉 ， 重 新 拟 合 列 联 表 数据 ， 似 然 比 卡 方 值 为 
0.374，P=0.5408， 则 认为 新 模型 的 拟 合 效果 较 好 。 接 着 ， 进 入 模型 选择 的 第 1 步 (step 1)。 
当前 最 好 的 模型 是 (AlcoholxCigarett，Alcohol*Marijuan，Cigarett*sMarijuan)， 即 包含 所 有 
的 一 级 交互 作用 的 模型 ， 该 模型 的 拟 合 优 度 就 是 初始 模型 去 掉 最 高 阶 交互 项 后 的 卡 方 检验 
值 。 进 一 步 ， 分 别 剔 除 各 个 一 级 交互 项 ， 得 到 新 的 模型 ， 并 进行 检验 ， 检 验 结果 均 说 明 拟 
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合 优 度 的 改变 有 统计 学 意义 〈 已 <0.05 )， 即 不 能 剔除 这 些 一 级 交互 项 。 


******** HIERARCHICAL LOG LINEAR ******** 





Backward Elimination (p = .050) for DESIGN 1 with generating class 
Alcohol*Cigarett*Marijuan 
Likelihood ratio chi square = É P= 


If Deleted Simple Effect is DF L.R. Chisq Change Prob Iter 
Alcohol*Cigarett*Marijuan 1 374  .5408 4 
Step 1 
The best model has generating class 
Alcohol*Cigarett 
Alcoholi*Marijuan 
Cigarett*Marijuan 
Likelihood ratio chi square = .37410 DF-1 P= .541 


If Deleted Simple Effect is L.R. Chisq Change 
Alcohol*Cigarett 187.380 
Alcohol*Marijuan 91.644 
Cigarett*Marijuan 496.995 

Step 2 

The best model has generating class 
Alcohol*Cigarett 
Alcohol*Marijuan 
Cigarett*Marijuan 
Likelihood ratio chi square = .37410 DFz1 P= .541 


结果 15-12 ”模型 第 选 过 程 


第 2 步 step 2)， 由 于 第 1 步 第 选 结果 与 初始 筛选 结果 相同 ， 故 认为 当前 模型 是 最 好 
模型 ， 而 且 筛 选 过 程 结 束 。 

最 后 显示 的 是 模型 选择 的 最 终结 果 ， 并 给 出 了 “最 佳 模型 ”的 一 些 拟 合 结果 〈 见 结果 
15-13)， 与 在 前 一 节 看 到 的 结果 一 致 ， 这 里 不 再 著述 。 


******** HIERARCHICAL LOG LINEAR ******** 





The final model has generating class 
Alcohol*Cigarett 
Alcohol*Marijuan 
Cigarett*Marijuan 
The Iterative Proportional Fit algorithm converged at iteration 0. 
The maximum difference between observed and fitted marginal totals is .226 
and the convergence criterion is 


Observed, Expected Frequencies and Residuals. 


Factor Code OBS count EXP count Residual Std Resid 
Alcohol No 
Cigarett No 
Marijuan No 279.0 279.6 -.58 -.03 
Marijuan Yes 2.0 1.4 .62 .52 


Cigarett Yes 
Marijuan No 43.0 42.4 .60 .09 
Marijuan Yes 3.0 3.6 -.62 -32 


Alcohol Yes 

Cigarett No 

Marijuan No .58 .03 

Marijuan Yes . -.62 -.09 

Cigarett Yes 

Marijuan No -.60 -.03 
.62 .02 


Goodness-of-fit test statistics 
Likelihood ratio chi square = .37410 DF=1 P= .541 
Pearson chi square = 40117 DF=1 P= .526 


结果 15-13 ”模型 选择 的 最 终结 果 及 “最 佳 模 型 ”的 一 些 拟 合 结果 
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15.2 Poisson 回归 


15.2.4. 基本 原理 


Poisson 回归 (Poisson Regression) 是 用 来 分 析 服 从 Poisson 分 布 的 事件 发 生 数 〈 或 率 ) 
与 一 组 解释 变量 之 间 关 系 的 统计 学 方法 。 

如 果 随 机 变量 X 所 有 可 能 取 的 值 为 1,2,3,…， 且 取 各 个 值 的 概率 为 

e 11 
x! 
H+, A>0 ERK, MEX RASO A BJ Poisson 分 布 。 

Poisson 分 布 常用 于 描述 单位 时 间 、 单 位 平面 或 单位 空间 中 罕见 “质点 ”总 数 的 随机 
分 布 。 在 现实 生活 中 ， 许 多 事件 的 发 生 数 服从 Poisson 分 布 ， 如 某 段 时 间 内 电话 机 接 到 的 
呼唤 次 数 ， 候 车 的 乘客 数 ， 放 射 性 物质 在 某 段 时 间 内 放射 的 粒子 数 ， 纺 纱 机 断 头 数 ， 某 页 
书 上 印刷 错误 个 数 ， 单 位 体积 内 粉尘 的 计数 ， 单 位 容积 中 的 细菌 数 ， 野 外 单位 面积 内 的 某 
种 昆虫 数 , 血细胞 或 微生物 在 显微镜 下 的 计数 等 , 许多 发 病 率 很 低 的 疾病 (不 具有 传染 性 ， 
无 永久 免疫 ， 无 遗传 性 ) ， 在 人 群 中 患 病 数 也 服从 Poisson 分 布 。 

Poisson 回归 常用 对 数 线 性 模型 进行 分 析 ， 如 果 有 X,Y 两 个 解释 变量 ， 则 模型 可 写 为 

In Aj =I = 4 +4 eA] 
ij 
其 中 , 下 标 i,j 表 示 变 量 X 的 第 i 个 水 平和 变量 7 了 的 第 j 个 水 平 ，i 表示 相应 的 理论 频数 ， 
Ws 表示 观察 单位 数 ，4 为 常数 项 ， 入 为 X 第 ;水 平 对 应 的 参数 ，4; 为 变量 了 第 /水平 对 
应 的 参数 。 

车 假设 Y 变量 有 两 个 水 平 ， 即 j 取 1 和 2， 则 了 取 第 2 个 水 平 与 其 取 第 1 个 水 平 相 比 ， 

某 事 件 发 生 的 相对 危险 度 为 : 


P(X =x)= 





(A+A AT) 
RR- E-E ^ =e% D 
Pi QUTD 


15.2.2 ”实例 与 操作 

1. 实例 描述 

采用 职业 人 群 回顾 性 队列 研究 方法 ,对 所 有 1966 年 8 月 18 日 到 1991 
年 12 月 31 日 在 湖北 某 厂 工 作 5 年 以 上 者 的 生存 情况 做 了 调查 ,符合 进入 队列 的 条 件 者 9572 
人 ， 共 贡献 观察 人 年 114488 AF, EPA 159 人 死亡 ， 按 年 龄 与 是 否 暴 露 两 个 因素 分 组 
的 资料 见 表 15-3 (数据 文件 见 data15-3.xls 或 data15-3.sav )。 问 年 龄 与 暴露 因素 对 死亡 率 有 
无 影响 ? 
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表 15-3 湖北 某 厂 全 死因 死亡 资料 


非 暴露 # 露 
Ee (X) 一 一 一 一 一 一 一 一 一 一 
死亡 数 人 年 死亡 率 1/10 万 死亡 数 AF 死亡 率 1/10 万 
<40 39 59141 0.0659 30 ` 34955 0.0857 
40—49 14 5621 0.2114 33 9241 0.3571 
50—59 3 650 0.4615 25 3115 0.8026 
60—69 0 54 0.0000 12 595 2.0168 
z70 0 9 0.0000 3 67 4.4716 


该 资料 的 特点 是 死亡 率 的 分 子 〈 死 亡 数 ) 很 小 ， 而 分 母 (观察 人 年 ) 相对 较 大 ， 由 此 
得 到 的 死亡 率 很 小 。 如 果 假 定 人 的 死亡 是 相互 独立 的 ， 则 可 认为 死亡 发 生 数 服从 Poisson 
分 布 ， 可 对 该 资料 做 Poisson 回归 以 回答 上 面 的 问题 。 

2. Poisson 回归 与 一 般 对 数 线性 模型 的 主要 区 别 

在 对 数 线性 模型 中 ， 我 们 已 经 知道 在 SPSS 中 ，Loglinear 过 程 中 的 General 过 程 主 对 
话 框 左下 方 的 Distribution of Cell Counts 单 选 按钮 组 默认 为 Poisson， 即 各 单元 格 中 频数 分 
布 服从 Poisson 分 布 〈 前 一 节 讲 的 单元 格 内 频数 都 被 假定 成 服从 多 项 分 布 ) 。 因 为 Poisson 
回归 是 建立 在 单元 格 内 的 频数 服从 Poisson 分 布 的 基础 上 , 所 以 Poisson 回归 与 一 般 对 数 线 
性 模型 的 主要 区 别 就 是 把 这 里 的 选项 改 为 Poisson 〈 即 默认 选项 ) 。 

3. 数据 结构 

首先 定义 4 个 变量 ， 变 量 名 分 别 为 age (表示 年 龄 组 ) 、expose (表示 是 否 暴露 ) 、n 
(表示 观察 人 年 数 ) 和 y (表示 死亡 数 ) 。 其中, age 中 1, 2, 3, 4, 5 分 别 代 表 <40, 40—49, 50— 
59, 60—69, —70, expose 中 0, 1 分 别 代表 非 暴露 和 暴露 。 数 据 结 构 见 图 15-7. 






poisson regression. sav SPSS Data Editor 
File Edit Yiew Data Transform Analyze Graphs Utilities Window Help 


sigla =I o|] t= B| Al FIE] BIERI Da 


20: 














Aa O N — O RON- 
MiBESouozH 
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图 15-7 3 15-3 数据 的 SPSS 数据 格式 
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与 统计 分 
4. 操作 提示 


首先 对 数据 进行 加 权 ， 加权 变量 是 y. VII Loglinear 过 程 中 的 General 过 程 主 对 话 框 ， 
即 单 击 Analyze 一 Loglinear 一 General...， 在 此 对 话 框 中 执行 如 下 操作 。 


Page, expose P] Factor(s) SAATKE 

Cell Structure: n 号 定义 单元 格 观察 单位 数 权重 

Distribution of Cell Counts 一 假定 单元 格 中 频数 服从 Poisson 分 布 
(* Poisson 

“Model... 

Specify Model 
(* Custom =H P ZURA 

Build Term(s): Main effects 一 定义 主 效 应 


age >] Terms in Model 
expose > Terms in Model 


Options... 

Frequencies 一 输出 频数 表 

Residuals 输出 原始 残 差 值 

Estimates 一 输出 参数 估计 值 

"B Adjusted residuals 一 输出 调整 残 差 图 

Normal probability for adjusted 一 输出 调整 残 差 的 正 态 概率 图 

ik: 前 面 已 说 明 ，Cell Structure 框 可 以 用 于 识别 结构 0 数据 ， 但 它 还 可 以 作为 Poisson 回 归 观 察 单位 数 权重 。 
5. 结果 解释 


输出 的 大 部 分 结果 跟 对 数 线性 模型 一 致 ， 这 里 就 主要 结果 进行 解释 。 

结果 15-14 是 拟 合 优 度 检 验 结 果 ， 结 果 下 方 的 注释 说 明 Model 做 的 是 Poisson 回归 ， 
Design 说 的 是 模型 包括 常数 项 、 年 龄 和 暴露 的 主 效应 。 可 见 ， 似 然 比 检验 G2 = 2.474， 
df =4,P = 0.649 Pearson 卡 方 检验 Xx? =1.542,df =4,P=0.819， 两 个 检验 的 P 值 都 较 大 ， 
均 说 明 该 模型 对 数据 拟 合 较 好 。 由 于 饱和 模型 的 似 然 比 检验 统计 量 等 于 0， 自由 度 也 为 0, 
于 是 ，AG? = 2474, Adf =4， 相 应 的 x? 分 布 P=0.649 。 因 此 ， 按 水 准 & = 0.05 可 以 认为 年 
龄 和 暴露 之 间 不 存在 交互 作用 ， 不 需要 再 纳入 两 个 变量 的 交互 项 。 


Goodness-of-Fit Tests ^b 





Value df Sig. 
Likelihood Ratio 2.474 4 .649 
Pearson Chi-Square 1.542 4 .819 


a. Model: Poisson 
b. Design: Constant + age + expose 


结果 15-14 MERRER A RL 
结果 15-15 列 出 了 每 个 单元 格 的 实际 频数 、 理 论 频数 、 原 始 残 差 、 标 准 化 残 差 、 调 整 
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残 差 及 偏离 残 差 值 。 全 部 调整 残 差 的 绝对 值 均 落 在 2 以 内 ， 说 明 尚 不 能 认为 模型 拟 合 效果 
不 好 ， 为 了 得 到 较 确 切 的 结论 ， 需 要 做 进一步 的 残 差分 析 。 





Standardized Adjusted 








age expose Cout —  % Con X Residual Residual Residual Deviance 

<40 0 39 24.5% 36.501 23.0% 2.499 414 897 409 
1 30 18.9% 32.499 20.4% -2499 -.438 -897 -.444 

40-49 o 14 8.8% 15.161 9.5% -1.161 298 442 302 
1 33 20.8% 31.839 20.0% 1461 206 442 204 

5059 0 3 1.9% 3.410 21% -A10 -222 -249 -227 
1 25 15.7% 24.590 15.5% 410 083 248 082 

6069 0 0 .0% .683 496 -.683 -.826 -.860 -.826 
1 12 7.596 11.317 7.1% 683 203 856 201 

»-70 0 0 0% 246 2% -.246 496 519 496 
1 É: 





e 
b. Design: Constant + age + expose 


结果 15-15  - ell Counts and Residuals 信息 


结果 15-16 给 出 了 模型 的 参数 估计 值 ， 除 age = 4 以 外 ， 其 他 参数 对 应 的 已 值 均 小 于 
0.05， 若 按 w = 0.05 水 准 ， 可 认为 这 些 参 数 对 模型 的 贡献 均 有 统计 学 意义 ， 结 合 本 例 可 认 
为 年 龄 与 暴露 均 对 死亡 率 有 影响 。 


Parameter Estimates bc 
= r ','.—Ox—rhui."”'Oos—oamsg=-a"-°:*.* 


95% Confidence Interval 


Parameter Estimate Std. Error z Sig. Lower Bound Upper Bound 
Constant -3.192 .578 -5.526 -000 -4.324 -2.060 
[age = 1] -3.790 .595 -6.368 .000 -4.957 -2.624 
[age = 2] -2.479 .597 -4.152 -000 -3.649 -1.309 
[age = 3] -1.650 .607 -2.716 .007 -2.841 -.459 
[age = 4] -.771 .645 -1.194 .233 -2.036 .494 
[age = 5] o? . 

[expose = 0] -.409 .179 -2.287 .022 -.759 -.058 
[expose = 1] [Ud 


8. This parameter is set to zero because it is redundant. 
b. Model: Poisson 
€. Design: Constant + age + expose 


结果 15-16 ”模型 的 参数 估计 值 
根据 上 面 数据 可 以 计算 相对 危险 度 ( RR )。 暴 露 相 对 于 不 暴露 的 相对 危险 度 的 估计 为 ; 


RR = e[9-C0409] — $0409 =1.51 


年 龄 在 40—49 岁 之 间 相对 于 年 龄 小 于 40 岁 的 相对 危险 度 为 : 


RR = ef2479-(-3.790] -~ 1311 -3 41 
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第 I6 x 生存 分 析 与 Cox 模型 





在 科学 研究 中 ， 可 通过 随访 (Follow Up) 来 研究 事物 的 变化 发 展 规律 ， 以 获取 有 关 生 
存 的 信息 。 随 访 资料 的 特点 是 : 

。 需 随访 一 段 时 间 ， 由 于 研究 时 间 较 长 ， 难 免 出 现 研 究 个 体 失 访 等 原因 而 退出 研究 的 

现象 ， 形 成 截 尾 数据 ; 

。 数 据 分 布 类 型 复杂 ， 一 般 生存 时 间 数 据 的 分 布 呈 正 偏 态 分 布 。 

正 是 由 于 这 些 特 点 ， 研 究 分 析 时 不 仅 需 要 考虑 某 种 结局 〈 如 有 效 、 治 愈 、 死 亡 等 )， 
还 需要 考虑 出 现 这 些 结局 所 经 历 的 时 间 长 短 。 由 于 生存 时 间 变 量 不 服从 正 态 分 布 等 假定 条 
件 ， 一 般 不 能 采用 常规 的 统计 学 分 析 方 法 。 生 存 分 析 通 常 采 用 寿命 表 法 、Kaplan-Meier 法 
等 非 参数 方法 计算 与 比较 单 因素 生存 率 ; 采用 Cox 比例 风险 回归 模型 等 半 参 数 方法 考虑 多 
个 因素 对 生存 情况 的 影响 。 


16.1 常用 术语 


1. 生存 时 间 

生存 时 间 (Survival Time) 可 定义 为 从 某 种 起 始 事件 到 达 某 终点 事件 所 经 历 的 时 间 跨 
度 。 起 始 事 件 和 终点 事件 根据 研究 目的 和 专业 知识 在 设计 阶段 确定 。 起 始 事件 如 疾病 的 确 
诊 、 某 种 处 理 〈 治 疗 ) 的 实施 等 ， 终 点 事件 可 以 是 某 种 疾病 的 发 生 、 某 种 处 理 〈 治 疗 ) 的 
反应 、 病 情 的 复发 或 死亡 等 ， 又 称 失效 事件 〈Failure Event)。 生 存 时 间 常 用 符号 上 表示 。 

2. 完全 数据 (Complete Data) 

在 随访 期 内 , 随访 对 象 发 生 了 失效 事件 , 即 观察 到 随访 对 象 出 现 了 我 们 所 规定 的 结局 ， 
该 观察 对 象 所 提供 的 关于 生存 时 间 的 信息 是 完整 的 ， 这 种 生存 时 间 数 据 称 为 完全 数据 。 例 
如 ， 某 研究 观察 了 10 名 行 输卵管 结扎 术 后 的 妇女 经 峡部 一 一 峡部 输卵管 吻合 手术 后 的 受 
孚 时 间 CHO Z: 2, 3, 3, 4, 4, 7, 8, 10, 13, 15， 这 就 是 一 组 按 由 小 到 大 的 顺序 整理 过 的 
完全 数据 。 





生存 分 析 与 Cox 模型 ENIES 


3， 截 尾数 据 (Censored Data) 

在 实际 追踪 观察 中 ， 由 于 某 种 原因 无 法 知道 观察 对 象 的 确切 生存 时 间 ， 这 种 生存 时 
间 数 据 称 为 截 尾 数据 。 例 如， 有 10 名 行 输卵管 结扎 术 的 妇女 经 壶 腹 -一 一 壶 腹部 吻合 术 后 
的 受孕 时 间 CHO 为 : 4, 5, 5, 6, 9, 10+, 14*, 20*, 31*, 44。 这 就 是 一 组 按 由 小 到 大 的 顺序 整 
理 过 的 数据 ， 其 中 带 有 “十 ”的 数字 为 截 尾 数据 。 产 生 截 尾数 据 的 原因 大 致 有 如 下 两 个 
方面 。 

(1) 观察 对 象 失 访 

例如 ， 因 搬迁 而 失去 联系 或 中 途 退 出 试验 ,或 因 其 他 的 与 本 研究 无 关 的 原因 死亡 (或 
失败 ) 而 未 能 观察 到 规定 的 终点 。 终 止 随访 时 间 为 失 访 时 间或 死亡 时 间 )。 

(2) 观察 对 象 的 生存 期 超过 了 研究 的 终止 期 

例如 ， 研 究 计 划 规 定 只 对 病人 随访 4 年 ， 但 有 的 病人 的 生存 期 超过 了 4 年 。 或 者 由 于 
病人 进入 研究 的 时 间 较 晚 ， 虽 然 对 他 的 随访 期 未 满 4 年 ， 但 已 到 了 研究 的 截止 时 间 。 

不 论 截 尾 数据 的 产生 原因 为 何 , 截 尾 生 存 时 间 的 计算 均 为 起 始 事 件 至 截 尾 点 所 经 历 的 
时 间 。 常 见 的 右 截 尾 (Right Censoring) 表示 准确 的 生存 时 间 长 于 截 尾 时 间 。 截 尾数 据 常 
在 其 右上 和 角 标 记 “+”。 

4. 生存 率 或 生存 函数 《Survival Function) 

令 T 了 表示 生存 时 间 ， 生 存 率 或 生存 函数 表示 观察 对 和 象 活 过 时 间 1 的 概率 ， 又 称 累积 生 
存 函 数 (Cumulative Survival Function), %5% S) 。 

S()=P(T>p, 0O<S@) <l 
活 过 时 间 上 的 观察 例 数 
观察 总 例 数 (16-1) 

以 生存 时 间 为 横 轴 ， 生 存 率 为 纵 轴 ， 将 各 个 时 间 点 所 对 应 的 生存 率 连 接 在 一 起 的 曲线 
图 称 为 生存 曲线 (Survival Curve). 

5. 风险 函数 (Hazard Function) 

风险 函数 又 称 危险 函数 ， 表 示 一 个 生存 到 时 间 z 的 观察 对 象 ， 从 1 到 1 十 At 这 一 区 间 内 
死亡 的 概率 极限 ， 常 用 Ab 表示 。 其 计算 公式 为 : 

h(t) = lim(At > o EENET KAER (16-2) 

AR (16-2) 是 风险 函数 AD 的 定义 式 。 在 实际 工作 中 ， 风 险 函 数 可 用 下 式 来 估计 : 

死 于 区 间 CA 人 数 AOSD (16-3) 
t SERERE Ap TRIPS RRA 

6. 中 位 生存 时 间 和 平均 生存 时 间 

中 位 生存 时 间 (Median Survival Time) 又 称 半数 生存 期 ， 表 示 恰 有 50% 的 个 体 尚 存活 
的 时 间 ， 即 生存 曲线 上 纵 轴 50% 所 对 应 横 轴 的 生存 时 间 。 

平均 生存 时 间 (Mean Survival Time〉 则 表示 生存 曲线 下 的 面积 。 





$q)- 
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162 ” 非 参数 分 析 


在 估计 生存 函数 时 对 生存 时 间 的 分 布 没 有 要 求 ， 可 比较 两 组 或 多 组 生存 函数 ， 并 且 可 
分 析 危 险 因素 对 生存 时 间 的 影响 。 非 参数 分 析 方 法 的 缺点 是 不 能 建立 生存 时 间 与 危险 因素 
之 间 依 存 关系 的 数学 模型 。 

常用 的 非 参数 生存 分 析 法 有 两 种 : 一 是 寿命 表 法 (Life Tables 过 程 )， 二 是 乘积 极限 法 
(Kaplan-Meier XL f£). 


16.2.4 寿命 表 法 


对 于 生存 资料 ， 首 先 需 给 出 各 时 间 点 上 生存 函数 的 估计 值 ， 方 法 之 一 即 为 寿命 表 法 
(Life-Table Method, 简称 LT 法 )。 寿命 表 适 用 于 区 间 数 据 , 通过 计数 落 入 时 间 区 间 [t, +!) 
内 的 失效 和 截 尾 的 观察 例 数 来 估计 该 区 间 上 的 死亡 概率 ， 然 后 ， 用 该 区 间 及 其 之 前 各 区 间 
上 的 生存 概率 之 积 来 估计 S(t) 。 寿 命 表 法 适用 于 样本 含量 较 大 的 资料 ， 在 SPSS 中 ， 可 由 
Life Tables 过 程 实现 。 

. 现 有 346 例 大 肠 癌 患 者 的 随访 资料 如 表 16-1 所 示 , 试 描述 其 生存 情况 。 





~ 


X 16-1 346 例 大 肠 癌 患者 术 后 生存 情况 


术 后 年 数 0~ 1— 2~ 3~ 4~ 5~ 6~ 7~ 8~ g~ 
期 间 死 亡 人 数 88 80 59 36 12 8 4 7 5 0 
期 间 删 失 人 数 2 1 3 15 8 9 3 3 1 2 


本 资料 是 以 频数 表 的 方式 整理 的 , 因此 在 分 析 前 需 指定 频数 变量 freg: 分 组 方式 为 0 一 
1 年 、1~2 年 等 ， 为 了 便于 录入 ， 用 组 段 的 起 始 年 数 表 示 该 组 段 ; 结局 died=1 表示 死亡 ， 
died-0 表示 删 失 。 重 新 整理 后 的 数据 见 表 16-2 (数据 文件 见 data16-1.xls 或 datal6-1.sav). 


表 16-2 346 例 大 肠 癌 患 者 术 后 的 生存 情况 《整理 后 》 
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1. 变量 加 权 
本 资料 是 以 频数 表 的 方式 整理 的 ， 在 估计 生存 函数 时 ， 需 先进 行 变量 加 权 。 


a 变量 加 权 操 作 提 示 ( 见 图 16-1 ) 


Data 号 在 菜单 栏 上 单 击 Data 
“OWeight Cases... % 弹出 Weight Cases 对 话 框 
号 指定 频数 变量 


“Weight Cases By(Frequency Variable) 
BOK 





m Weight Cases 


D REFA [time] p eg 
D $& Š [died] ls pep: ge 
{© Weight cases by 
| Erequency Variable: 
2J DMA [frea] 


Curent Status: Weight cases by freq 





T. 


| 


图 16-1 Weight Cases 对 话 框 


2. Life Tables 过 程 操 作 提 示 
a 指定 Life Tables 过 程 操 作 提 示 


Analyze 
Survival 
Life Tables... 
% Life Tables 主 对 话 框 操作 提示 ( 见 图 16-2 ) 
“Time 一 选 入 生存 时 间 变 量 


Display Time Intervals 一 键入 欲 输出 的 生存 时 间 范 围 及 组 距 

在 by 前 面 的 框 内 填 入 生存 时 间 上 限 ， 本 例 填 入 9; 在 by 
后 面 的 框 内 填 入 生存 时 间 的 组 距 ， 本 例 填 入 1， 以 保证 结 
果 列 出 每 年 的 生存 率 。 

一 选 入 生存 状态 变量 ， 并 定义 失效 事件 的 标记 值 
选 入 变量 “died” 后 ，Define Event… 按 人 钮 被 激活 ， 单 击 该 
按钮 ， 弹 出 定义 失效 事件 标记 值 的 对 话 框 。 

号 定义 第 一 层 因素 
系统 为 每 一 层 单独 计算 出 寿命 表 ， 第 一 层 因 素 通 常 是 希望 
研究 的 因素 。 选 入 变量 后 ，Define Range 按钮 被 激活 ， 用 
它 来 定义 分 层 变 量 的 取 值 范围 。 因 素 取 值 必须 是 整数 。 

一 定义 第 二 层 因素 (该 层 一 般 为 混杂 因素 ) 


“Status 


Factor 


By Factor 
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图 16-2 Life Tables 主 对 话 框 


失效 事件 标记 值 定 义 对 话 框 操作 提示 ( 见 图 16-3) 
"5 Value(s) Indicating Event Has Occurred 定义 失效 事件 标记 值 
-Single value 呈 以 单一 数值 标记 失效 事件 ( 本 例 以 死亡 为 
失效 事件 ， 其 标记 值 为 1 ) 
Range of values | through | — 宇 以 数值 区 间 标 记 失 效 事 件 


Life Tables: Define Even... [K 


Value(s) Indicating E vent Has Occurred 
— 


© Single value: 1 


C Rangeoyaues: [ touh | — 





图 16-3 ”失效 事件 标记 值 定义 对 话 框 


% Options 子 对话 框 操作 提示 (WE 16-4) 


Options 一 选择 需要 输出 的 寿命 表 、 各 种 曲线 、 图 表 及 做 统计 学 
A —— 

VdVkifetable(s) = 输出 寿命 表 ， 系 统 默认 

"Plot 一 统计 图 ， 总 共 可 输出 5 种 (可 复 选 ) 


Survival: 累积 生存 函数 曲线 ; 
Log survival: 对 数 累积 生存 函数 曲线 ; 
Hazard: 累 积 风险 函数 散 点 图 ; 
Density: 密度 函数 散 点 图 ; 
One minus survival: 累积 “死亡 ”函数 曲线 。 
"Compare Levels of First 宇 第 一 层 因素 不 同 水 平 的 比较 〈 单 选 ) 
Factor None: 不 做 比较 ， 系 统 默认 ; 
Overall: 整体 比较 ; 
Pairwise: 两 两 比较 。 
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图 16-4 Options 子 对 话 框 


3. 结果 解释 

SPSS 结果 输出 形式 可 以 选择 文本 格式 (TXT)、 网 页 格式 (HTM), RTF 格式 及 Word 
格式 ， 这 里 以 我 们 常用 的 Word 为 例 ， 结 果 输 出 操作 提示 如 下 。 

单 击 菜单 File— Export—File Type 一 Word/RTF file(.doc) 一 OK， 输 出 Word 格式 文档 。 
(为 了 更 好 看 ， 下 面 结果 采用 复制 、 粘 贴图 片 方式 产生 ) 


Survival Variable: time 


Ute Table? 


d 
sre 
ter E EO 
iptervol Stort me prd edere 一 一 一 
E 


s 
80 
59 
36 


2 
8 
4 
7 
5 





3. The median survival time is 2.07 


结果 16-1 BINAE E 


结果 16-1 给 出 的 是 大 肠 癌 病人 的 寿命 表 ， 其 中 ，The median survival time is 2.07 表示 
中 位 生存 时 间 为 2.07 年 ， 即 术 后 大 肠 癌 病人 死亡 人 数 达 到 一 半 的 时 间 为 2.07 年 。 寿 命 表 
中 各 指标 含义 说 明 如 下 。 

* Interval Start Time: 生存 时 间 的 组 段 下 限 。 

e° Number Entering Interval: 进入 该 组 段 的 观察 例 数 。 

e Number Withdrawing during Interval: 进入 该 组 段 的 删 失 例 数 。 

e Number Exposed to Risk: 暴露 于 危险 因素 的 例 数 ， 即 有 效 观 察 例 数 。 

e Number of Terminal Events: 出 现 失 效 事件 的 例 数 ， 即 死亡 〈 复 发 、 恶 化 ) 例 数 。 

e Proportion Terminating: 失效 事件 比例 ， 即 死亡 概率 。 

e Proportion Surviving: 生存 概率 ， 等 于 (1- 死 亡 概率 )。 

* Cumulative Proportion Surviving at End of Interval: 至 本 组 段 上 限 的 累积 生存 率 ， 由 


各 组 的 生存 概率 累积 相 乘 所 得 。 
* Std. Error of Cumulative Proportion Surviving at End of Interval: 累积 生存 率 的 标准 
误 。 
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* Probability Density: 概率 密度 ， 所 有 个 体 在 时 点 上 后 单位 时 间 内 死亡 概率 的 估计 值 。 

e Std. Error of Probability Density: 概率 密度 的 标准 误 。 

* Hazard Rate: 风险 率 ， 表 示 活 过 时 点 上 后 单位 时 间 内 死亡 概率 的 估计 值 。 

e Std. Error of Hazard Rate: 风险 率 的 标准 误 。 

在 图 16-2 的 界面 右 下 角 ， 单 击 Options 按钮 ,在 图 16-4 界面 选择 Plot 下 的 “Survial ”， 
得 到 的 累积 生存 率 曲 线 见 图 16-5. 


Survival Function 





0.8 


Cum Survival 











术 后 年 数 
图 16-5 ”累积 生存 率 曲 线 


16.2.2 ”Kaplan-Meier 法 


Kaplan-Meier 法 〈K-M 法 ) 由 英国 统计 学 家 Kaplan 和 Meier 于 1958 年 提出 ， 该 法 利 
用 概率 乘法 定理 计算 生存 率 , 故 又 称 乘积 限 法 (Product-Limit Method, P-L 法 )。Kaplan-Meier 
过 程 适 用 于 小 样本 或 大 样本 未 分 组 资料 生存 率 的 Kaplan-Meier 法 生存 率 估 计 和 组 间 生 存 率 
比较 。 

1. 统计 思想 

(1) 生存 率 的 点 估计 

Wn, ni, dil c; DARRAR i 且 未 在 #1 截 尾 的 观察 对 象 数 、 期 初 例 数 、 
死亡 数 和 截 尾数 ， 则 时 间 处 的 生存 率 估计 为 


$0-a- 25a-225...8. d; ), iz12,-.,k (16-4) 
no ni 1 


Hii 





K-M 估计 的 几 个 性 质 如 下 : 
。 要 求 截 尾 与 生存 时 间 独 立 ( 称 独立 性 截 尾 ); 


440 | 


生存 分 析 与 Cox 模型 BENI 


° K-M 估计 只 限于 观察 生存 时 间 所 落 的 时 间 区 间 ; 

。 若 最 大 生存 时 间 非 截 尾 ， 则 该 时 间 点 生存 率 等 于 0。 
(2) 生存 率 的 区 间 估 计 

Greenwood 生存 率 标准 误 的 近似 计算 公式 为 


SE[S(t)]  $(1;) 





dj 

ja nj(; - dj) 

假定 生存 率 近 似 服 从 正 态 分 布 ， 则 总 体 生 存 率 的 〈1-a ) 置信 区 间 为 
(t) X zaz - SEIS (t;)] 


(16-5) 


(3) 生存 率 的 组 间 比 较 
Log rank 检验 是 生存 率 比 较 的 非 参数 方法 之 一 , 其 基本 思想 是 当 HHo 成 立时 , 根据 1; 时 
点 的 死亡 率 ， 可 计算 出 各 组 的 理论 死亡 数 ， 则 X 统计 量 计算 公式 为 
n _ [EW (dsi -To 


=— M (16-6) 
X V, 


式 中 ，Vi 为 第 8 MRAD 的 方差 舍 计 ，W = Yi ea Po m ARE, 
对 Log rank 检验 ，w =1。 当 比较 的 两 总 体 生存 曲线 呈 比 例 时 ， 检 验 效能 最 大 ，w =n, 
则 对 应 Breslow 检验 或 Wilcoxon 检验 , 该 检验 给 实际 死亡 数 与 理论 死亡 数 的 早期 差别 更 大 
的 权重 。 而 在 Tarone-Ware 检验 中 ，w; = n; ,其 中 于 表示 时 间 右 处 所 对 应 的 期 初 例 数 。X 
近似 服从 自由 度 为 (组 数 -1) 09 x? 分 布 。 由 于 该 检验 能 对 各 组 的 生存 率 做 整体 比较 ， 因 此 
实际 工作 中 应 用 较 多 。 

当做 多 组 生存 率 比 较 时 ， 若 分 组 变量 是 等 级 变量 ， 如 肿瘤 分 期 为 L HB. HH. TH, 
或 连续 变量 等 级 化 分 组 ， 如 年 龄 (22) <30, 30~, 40~, >50， 则 在 Log rank 检验 组 间 生 
存 率 差 别 有 统 计 学 意义 后 ， 还 可 做 趋势 检验 CTrend Test)， 分 析 风 险 率 是 否 有 随 分 组 等 级 
变化 而 变化 的 趋势 。 

2. 数据 整理 及 输入 

某 医师 收集 20 例 脑 瘤 患者 甲 、 乙 两 疗法 治疗 的 生存 时 间 OD, Mug 
见 表 16-3。 试 估计 甲 、 乙 两 疗法 组 的 生存 率 并 比较 两 组 生存 率 有 无 差别 。 





表 16-3 20 例 脑 瘤 患者 两 种 疗法 的 生存 时 间 (FS) 
甲 疗法 组 5 7 13 13 23 30 30* 38 42 42 45* 
乙 疗 法 组 1 3 3 7 10 15 15 23 30 





(1) 在 Variable View 中 设置 3 个 变量 

e 组 别 group: 字符 型 (a,b 分 别 表示 甲 、 乙 疗法 组 ) 或 数值 型 (1,2 分 别 表示 甲 、 乙 
疗法 组 )。 

e 生存 时 间 time: 数值 型 。 
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e 结局 censor: 数值 型 ，0, 1 分 别 表示 截 尾 、 死 亡 。 
(2) 数据 整理 成 表 16-4 形式 


表 16-4 20 例 脑 瘤 患者 两 种 疗法 的 生存 时 间 ( 周 〉 整理 表 





组 别 group 生存 时 间 time 生存 结局 censor 
a 5 1 
a 7 0 
a 13 1 
b 1 1 
b 3 1 
b 3 1 


3. Kaplan-Meier 过 程 操作 提示 

下 面 利 用 例 16-2 的 原始 数据 〈 见 data16-2.xls 或 datal6-2.sav) 说 明 SPSS 处 理 方 法 。 
a 指定 Kaplan-Meier 过 程 操 作 提示 

Analyze 

Survival 

Kaplan-Meier... 


% Kaplan-Meier 主 对 话 框 操作 提示 ( 见 图 16-6 ) 


m Kaplan-Meier 


TC AE iEP 
合生 存 时 间 tme 

Status: 

生存 结局 status[1] 


| 


Factor: 


mE 











图 16-6 Kaplan-Meier 主 对 话 框 


Time: 一 选 入 生存 时 间 变 量 

“Status 一 选 入 生存 状态 变量 ， 用 法 同 Life Tables 过 程 
“Factor 一 选 入 分 组 变量 

"B Strata 一 定义 分 层 因 素 
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该 层 一 般 为 混杂 因素 ， 系 统 在 运算 时 会 按照 分 层 方 式 给 出 结果 。 
-8Label Cases by ”一 指定 标签 变量 

当 研 究 者 特别 关心 每 名 患者 在 研究 队列 中 的 情况 时 ， 可 在 这 里 选 

入 相应 的 姓名 变量 ， 以 在 生存 分 析 中 输出 各 个 患者 的 姓名 。 


% Compare Factor 子 对 话 框 操作 提示 ( 见 图 16-7 ) 
Compare Factor 。” 一 组 间 比 较 ， 选 择 具体 的 统计 学 检验 方法 《 可 复 选 ) 
Log rank, Breslow, Tarone-Ware 三 种 方法 的 区 别 在 于 赋予 观 
测 的 权重 不 同 ，Log rank 各 时 间 点 权重 一 样 ， 此 法 最 常用 ; 
Breslow 以 各 时 间 点 的 观察 例 数 为 权重 ; Tarone-Ware 以 各 时 


间 点 观察 例 数 的 平方 根 为 权重 。 
-Linear trend for 。 一 分 组 因素 水 平 间 趋势 检验 (适用 于 分 组 变量 为 有 序 变量 ) 
factor levels 
听 比 较 层 次 单 选 一 确定 比较 方法 
按钮 组 Pooled over strata: 组 间 进 行 整体 比较 ( 系统 默认 ); 
For each stratum; 按照 分 层 变 量 进行 分 层 分 析 ; 
Pairwise over strata: 当 组 数 三 3 时 , 可 进行 多 组 间 的 两 两 比较 ， 
注意 需 调整 检验 水 准 w ; 
Pairwise for each stratum; 按照 分 层 变 量 ， 对 每 一 层 进 行 水 平 
间 的 两 两 比较 。 
a Save 子 对 话 框 操作 提示 ( 见 图 16-8) 
“Save 一 用 于 将 计算 结果 保存 为 新 变量 ( 可 供 保 存 的 结果 变量 有 
4 种 ) 
Survival 一 累积 生存 函数 (生存 率 ) 估计 值 
JBStandard error of survival 一 累积 生存 率 估 计 值 的 标准 误 , 可 用 于 构造 总 体 生 存 率 的 
置信 区 间 
Hazard 一 累积 风险 率 估 计 
Cumulative events 全 累积 终点 事件 发 生 数 


Kaplan-Weier: Save New --- fx) 


Kaplan-Meier: Compare PF 


j é Logrank IY Breslow 

[^ Linear trend for factor levels 

^* Pooled over strata Pairwise over strata 

/^ For each stratum © Pairwise for each stratum 


[ Hazard e-— | 


[ Cumulative events Help 


图 16-7 Compare Factor 子 对 话 框 图 16-8 Save 子 对 话 框 
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3 Options 子 对 话 框 操作 提示 ( WE 16-9) 
-Options ”一 选择 需要 输出 的 统计 量 和 统计 图 
JBStatistics SAHE ( 可 复 选 ) 
Survival table(s): 生存 率 估 计 表 ; 
Mean and median survival: 平均 生存 时 间 、 中 位 生存 时 间 (包括 标准 
误 及 其 置信 区 间 ); 
Quartiles: 生存 时 间 的 第 25、 第 50 和 第 75 百 分 位 数 。 
“Plots CARE (TAR) : 
Survival: 累积 生存 函数 曲线 ; 
One minus survival: 累积 “死亡 ”函数 曲线 ; 
Hazard: 累积 风险 函数 散 点 图 ; 
Log survival: 对 数 累积 生存 函数 曲线 。 


Kaplan-Meier: Op... x 


| IV. Survival table(s) 
Iv Mean and median survival | 
» Bustier 


I esa 
|^ One minus survival 
l^ Hazard 
^ Log survival 





图 16-9 Options 子 对 话 框 


4， 结 果 解 释 
结果 16-2 给 出 了 a, b 两 疗法 各 组 和 合计 的 观察 例 数 、 死 亡 数 、 截 尾数 及 截 尾 百分比 。 


Case Processing Summary 


meii. N of Benti a Ls. 
27. z 
och iin 


结果 16-2 Case Processing Summary 信息 













结果 163 给 出 了 两 组 人 群生 存 率 估计 表 ， 其 中 Time, Status, Cumulative Survival, 
Standard Error, Cumulative Events, Number Remaining 分 别 表 示 生 存 时 间 、 生 存 结 局 、 生 存 
率 、 生 存 率 标准 误 、 累 积 死亡 数 和 期 初 例 数 。 截 尾 生 存 时 间 的 生存 率 和 生存 率 标 准 误 与 前 
一 个 完全 生存 时 间 对 应 数值 相同 ， 如 a 组 7 周 生 存 率 为 0.909。 
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Survival Table 


Cumulative Proportion N of 
Surviving at the Time Cumulative 
Time Status Estimate | Std. Error 


Events 













N of 
Remaining 
Cases 









组 别 group 
a 
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结果 16-3 ”两 组 人 群生 存 率 估计 表 
结果 16-4 给 出 了 a. b 组 平均 生存 时 间 、 中 位 生存 时 间 、 标 准 误 及 其 95% 置 信 区 间 。 


Means and Medians for Survival Time 


Mean? Median 


Estimate Upper Bound | Estimate 
Y 7352 - 38.000 
3.281 
3.367 


10.645 17.135 58.865 
4.472 18.765 
5.341 25.468 





8. Estimation is limited to the largest survival time if it is censored. 


结果 16-4 Means and Medians for Survival Time 信息 


结果 16-5 给 出 了 两 疗法 组 比较 的 检验 结果 , 三 种 统计 检验 方法 均 显 示 , 两 组 生存 率 差 
别 有 统 计 学 意义 。 


Overall Comparisons 


| [chiSguare | d | sg | 


Log Rank (Mantel-Cox) 


Breslow (Generalized 
Wilcoxon) 





Test of equality of survival distributions for the different levels of 


组 别 group. 
结果 16-5 ”两 疗法 组 比较 的 检验 结果 


两 疗法 组 生存 曲线 如 图 16-10 所 示 。 
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Survival Function 








组 别 
9 乙 疗 法 组 
E: 
š + 乙 疗法 组 -censored 
c P 甲 疗法 组 
Ə - + 甲 疗法 组 -censored 
0 10 20 30 40 50 
生存 时 间 


图 1640 甲 、 乙 两 疗法 组 生存 曲线 


16.3 Cox 回归 模型 


前 面 介绍 的 是 最 基本 的 生存 分 析 方 法 ， 但 它们 只 能 研究 单个 因素 对 生存 时 间 的 影响 ， 
当 对 生存 时 间 的 影响 因素 较 多 时 则 行 不 通 了 。 此 时 需 有 一 种 专门 用 于 生存 时 间 的 多 变量 分 
析 方 法 ， 这 就 是 本 节 将 要 介绍 的 Cox 回归 模型 (Cox Regression 过 程 )。 


16.3.1 方法 介绍 


假设 有 名 病人 ， 第 i(i=1，2,…, nn) 例 病人 的 生存 时 间 为 4+， 同时 设 协 变量 X= (Xa, 
Xo, 7, Xip) 是 影响 病人 生存 时 间 的 p 个 危险 因素 。 设 h(t,x) 表示 在 受 危险 因素 x 的 影响 下 ， 
在 时 刻 上 的 风险 率 ; 设 ho(D) 表 示 在 不 受 危险 因素 x 的 影响 下 , 在 时 刻 1 的 风险 率 。 显然 ho()= 
h(t, 0)， 并 称 ho() 为 基础 风险 函数 。 
Cox 比例 风险 模型 可 写 为 : 
hi(t) = ho) exp (Y, B;Xy) (16-7) 


ja 
其 中 ,po(0 是 指 当 所 有 伴随 变量 X (j= 1,2, «s, P) 都 处 于 0 或 标准 状态 下 的 风险 函数 时 , 为 
一 不 确定 的 值 。pB; 0=1, 2，…, PIRA Cox 回归 系数 ， 是 模型 中 的 待定 参数 。 

对 公式 16-7) 变形 后 取 自 然 对 数 有 : 


` 
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ht) (16-8) 
In -Xox j 


如 果 把 公式 〈16-8) 的 左 侧 当 作 因 变 量 ， 则 其 形式 与 一 般 线性 回归 类 似 。 因 此 ， 人 们 
常常 也 把 Cox 比例 风险 模型 称 为 Cox 回归 模型 。 

由 公式 (16-7) 可 知 ， 变 量 六 的 作用 是 使 个 体 的 风险 函数 由 和 人 0 增 至 io(Dexp(B);，P 
个 协 变量 ,x2 ,xp 共同 影响 下 的 风险 函数 为 ; 

h(t, x) = ho(t) exp(Bixi) -exp(Bax2)--exp(Bpx,) 

使 得 个 体 风 险 函 数 由 加 人) HE ho (t) exp(Bixi) -exp(fox2)--exp( x5) > SK Cox 模型 是 一 种 

任 两 个 个 体 风险 函数 之 比 ， 即 相对 危险 度 RR RAEE (Hazard Ratio) 可 写 为 : 

_ hí(t,x) | ho(Dexp(Bixa + Baxio + Bpxp) 

Ohjtx) hol)exp(Bixn + Bzxj2 ++ BpxXjp) 

- expl iG — xi) + BaGxia — xj) tt Bp(xip xj), i£j, Lj-Ll2, n (16-9) 

该 比值 保持 一 个 恒定 的 比例 ， 与 时 间 1 无 关 ， 称 为 比例 风险 (Proportional Hazards) fE 
定 ， 简 称 PH 假定 。 


由 公式 (169) 可 知 ， 相 对 风险 度 EO h Q 的 自然 对 数值 ， 为 伴随 变量 与 相应 回 


归 系 数 的 线性 组 合 。 RHA idR. AEREE X fpe AUD 所 引起 
的 相对 风险 度 的 自然 对 数值 的 改变 量 即 为 BB 。 例 如 ， 在 单一 自 变 量 情况 下 ， 若 用 X, 表示 
治疗 方案 ， 其 赋值 方式 为 X=0， 表 示 标准 治 疗 方案 ; Xj =1， 表 示 改 良 治疗 方案 (i 为 病例 
编号 )。 这 时 , 一 个 接受 改良 治疗 方案 的 病人 在 时 间 ! 点 的 相对 风险 度 的 自然 对 数值 In Pr O 
AB 。 显 然 ， 当 B<0 时 ， 有 hi(D 达 ho(D， 这 说 明 改 良 治疗 方案 的 治疗 效果 优 于 标准 治疗 方 
R: 否则 ，h(D)>>ho(D)， 即 改良 治疗 方案 的 治疗 效果 还 劣 于 标准 治疗 方案 。 因 此 ， 模 型 中 
的 参数 让 不 仅 反映 了 伴随 变量 的 作用 强度 ， 而 且 反映 了 它 作用 的 方向 。 

同时 ， 公 式 (16-9) 也 说 明 在 Cox 比例 风险 模型 中 ， 是 假定 预后 因素 对 其 死亡 风险 的 
作用 强度 在 所 有 时 间 上 都 保持 一 致 ， 这 是 Cox 模型 的 一 个 重要 适用 条 件 。 


16.3.2 ”实例 与 操作 


为 了 解 影 响 大 肠 癌 患者 术 后 生存 情况 的 因素 ，30 例 手术 后 的 大 肠 癌 串 
者 随访 资料 见 表 16-5( 数 据 文件 见 data16-3.xls 或 data16-3.sav)。 其 中 术 后 生存 时 间 time 
以 月 为 单位 ，status 表示 随访 结局 (其 值 为 0， 表 示 相应 的 术 后 生存 时 间 为 删 失 值 )。3 个 
协 变量 分 别 为 ， 性别 sex (其 值 为 0 表示 女性 ，1 RBH), ER age 〈 岁 )， 确 诊 到 进行 
手术 治疗 的 时 间 dtime (月 )。 试 对 此 数据 做 Cox 回归 分 析 。 
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表 16-5 30 名 大 肠 癌 患 者 手术 后 生存 资料 






time status sex 


status sex age dtime 








o o ° Ó oco Ó O oc o 
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1. 过 程 操 作 


a 指定 Cox Regression 过 程 操作 提示 


Analyze 
Survival 


Cox Regression... 
% Cox Regression 主 对话 框 操作 提示 ( 见 图 16-11) 


-Time 
Status 
Covariates 


Method 


Strata 
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一 选 入 生存 时 间 变 量 

一 选 入 生存 状态 变量 ， 用 法 同 Life Tables 过 程 

一 选 入 自 / 协 变量 
当 需 要 定义 几 个 变量 之 间 的 交互 作用 时 ， 首 先 选中 一 个 因素 ， 然 后 
按 shift 键 ， 再 选择 其 他 因素 ， 单 击 “>a#xb>” 按 钮 ， 所 定义 的 交互 作 
用 就 会 出 现在 Covariates 框 中 。 
选 入 变量 后 ，Block 1 of 1 右边 的 Next 按钮 被 激活 ， 它 用 于 确定 不 同 
自 变量 进入 回归 方程 的 方法 。 


”二 选择 自 变 量 进入 Cox 回归 方程 的 方法 


Enter: i& Covariates 框 内 全 部 变量 ; 
Forward: Conditional: 基 于 条 件 参 数 估计 的 前 进 法 ; 
Forward:LR: 基于 偏 最 大 似 然 估计 的 前 进 法 ; 
Forward:Wald: 基于 Wald 统计 量 的 前 进 法 ; 
Backward:Conditional: 基于 条 件 参数 估计 的 后 退 法 ; 
Backward:LR: 基于 偏 最 大 似 然 估计 的 后 退 法 ; 
Backward:Wald: 基于 Wald 统计 量 的 后 退 法 。 
号 选 入 分 层 变量 


生存 分 析 与 Cox 模型 


£ GSETREREGUUP ROCK UAURERURUCDERIAUER, È 
”以 后 者 为 佳 。 而 基于 Wald 统计 量 的 检验 则 不 然 ， 它 未 考虑 各 因素 之 间 的 综 
全 作用 ， 所 以 当 因素 间 在 在 共 线性 时 ， 针 果 不 可 午 ， 所 以 应 恒 用 此 检验 方法 。 








图 16-11 Cox Regression 主 对 话 框 


% Categorical 子 对 话 框 操作 提示 ( 见 图 16-12 ) 
JBCategorical ”一 定义 分 类 变量 
可 将 数值 型 变量 指定 为 分 类 变量 ，SPSS 自动 把 它们 拆 分 为 n-1 个 
” 哑 变 量 进行 分 析 (nn 为 该 变量 的 水 平 数 )。 





图 16-12 Categorical 子 对 话 框 


% Plots 子 对 话 框 操作 提示 ( 见 图 16-13) 
Plot Type 一 统计 图 组 (可 复 选 ) 
Survival: 累积 生存 函数 曲线 ; 
Hazard: 累积 风险 函数 散 点 图 ; 
Log minus log: 对 数 累 积 生存 函数 乘 以 -1 后 再 取 对 数 ; 
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DEN iiom 
One minus survival: 生存 函数 被 1 减 后 的 曲线 图 。 


JBCovariate Values Plotted at 一 各 自 变量 用 于 做 图 的 值 
该 列表 给 出 相应 图 形 的 公式 , 系统 默认 为 各 自 变 量 的 均 
值 。 如 果 要 改动 ， 则 在 框 内 选 定 变量 后 ，Change Value 
选项 组 被 激活 ， 在 value 框 内 填 入 指定 数值 。 

“Separate Lines for 一 分 层 变 量 做 图 

当 模 型 中 选 入 分 层 变 量 后 ， 此 框 才 激活 。 


ox Regression: Plots x 
Plot Type | Continue | 
iv Survival [~ Hazard | Log minus log [cete | 

Cancel 


I^ One minus survival 
Covariate Values Plotted at: Me | 


Separate Lines for: 


pres 
age(Mean] LJ p 
i 


dtime(Mean] 


Change Value 
rai. t" Val 





图 16-13 Plots 子 对 话 框 


a Save 子 对 话 框 操作 提示 ( 见 图 16-14 ) 
Survival cR Ido k fr h 3k h X 89483 CT AGIR) 
Function: 累积 生存 函数 (AR) 估计 值 ; 
Standard error: 累积 生存 率 估计 值 的 标准 误 ; 
Log minus log: 对 数 累 积 生存 函数 乘 以 -1 后 再 取 对 数 。 


一 回归 诊断 


Diagnostics 
Hazard function (也 称 Cox-Snell): 残 差 ; 
Partial residual: 偏 残 差 ; 
DfBeta(s): 剔除 某 一 观察 单位 后 的 回归 系数 变化 量 。 
“OX*Beta: 一 线性 预测 得 分 


ri es | 
Diagnostics [ continue | 
l^ Hazard function 

r Partial residuals te 让 | 


[ Standard error 
[ Log minus log í DfBeta(s) zi Help 


[ X*Beta 





图 16-14 Save 子 对 话 框 


450 | 


生存 分 析 与 Cox 模型 ESA 


% Options 子 对 话 框 操作 提示 ( WE 16-15 ) 
Model Statistics “ 刁 模 型 统计 量 
CI for exp(B): %: 相对 危险 度 的 置信 区 
E 系统 默认 为 9590348 CIR ; 
Correlation of estimates: 回归 系数 的 相关 阵 ; 


Display model information: 输出 模型 方式 。 
Probability for Stepwise “ 刁 模 型 保留 灾 量 的 显著 性 水 平 ( 可 复 选 ) 
系统 默认 选 入 水 平 为 p 过 0.05, 吻 除 水 平 为 p>0.10。 
“Maximum Iterations SRAKAR, RARUA 20 次 
Display baseline function 4 i46. 一 输出 风险 基准 函数 ,以 及 基于 各 协 变量 均值 的 生 
⁄ Ph 3 ES DUE HR C 


Model Statistics Probability for Stepwise 


wElerexiBi[ss 可 % Enty: [05 Remova: [10 |. i] 
ance 


厂 Correlation of estimates oa 
1 20 
Display model information Modius en: ! Help 


© At each step F Display baseline function 
^ Atlast step 





Kd 16-15 Options 子 对 话 框 


2. 结果 解释 
结果 16-6 输出 了 总 例 数 、 删 失 例 数 、 失 访 例 数 及 各 自 比例 等 结果 。 


Case Processing Summary 


[N | Percent | 
Cases available Event? j 
in analysis Censored 
Total 
Cases dropped Cases with missing 
values 


Cases with negative time 
Censored cases before 
the earliest event in a 
stratum 

Total 





a. Dependent Variable: 术 后 牛 存 时 间 


结果 16-6 Case Processing Summary 结果 


模型 中 不 引进 任何 协 变量 时 的 -2 倍 对 数 似 然 比 值 为 142.78〈 见 结果 16-7). 
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EN sita 0 0— 


Block 0: Beginning Block 
Omnibus Tests of Model Coefficients 
—2 Log Likelihood 
142.748 


结果 16-7 Omnibus Tests of Model Coefficients 结果 1 


协 变量 进入 模型 的 方法 是 LR 法 ， 我 们 事先 只 要 求 输出 最 后 一 步 的 情况 ， 所 以 此 处 只 
给 出 第 二 步 的 结果 。 结 果 16-8 还 对 模型 中 协 变量 回归 系数 (常数 项 除外 ) 是 否 全 部 为 零 进 
行 了 统计 检验 。 本 例 结果 显示 ， 永 不 全 为 0。 


Omnibus Tests of Model Coefficients^d 


RT e From EHE — I> e From arm — 
T Uie rd | Chi-square | quare 


| sg. | Chisquare | quare | Chesquare | quare 
Ec CARI I mp END qd mp AL uL E 
|| 994 47.810 14.676 57.754 
a. om Entered at Step Number 1: dtime 
b. Variable(s) Entered at Step Number 2: age 
C. Beginning Block Number 0, initial Log Likelihood function: -2 Log likelihood: 142.748 
d. Beginning Block Number 1. Method - Forward Stepwise (Likelihood Ratio) 








结果 16-8 Omnibus Tests of Model Coefficients 结果 2 


结果 16-9 是 对 回归 方程 各 参数 的 估计 ， 其 中 8 为 偏 回 归 系 数 ，SE 为 偏 回归 系数 的 标 
WER, Wad 统计 量 用 于 检验 总 体 偏 回 归 系 数 与 0 有 无 显著 性 差异 。 它 服从 x 分布， 当 自 
由 度 为 1 时 ，Wald 统计 量 等 于 偏 回归 系数 与 标准 误 之 商 的 平方 。Exp(B) 为 相对 危险 度 ， 即 
RR 值 。 从 结果 16-9 给 出 的 逐步 回归 结果 显示 ， 对 大 肠 癌 患者 生存 率 有 影响 的 因素 是 患者 
年 龄 和 确诊 到 手术 时 间 , 从 回归 系数 的 符号 和 相对 危险 度 的 大 小 来 看 , 二 者 都 是 危险 因素 。 
调整 确诊 到 手术 时 间 后 ， 患 者 年 龄 每 大 1 岁 ， 术 后 死亡 风险 将 增 大 到 1.26 倍 ， 增 加 26%; 
调整 年 龄 后 ， 确 诊 到 手术 时 间 每 增加 一 个 月 ， 术 后 死亡 风险 将 增 大 到 1.56 倍 ， 增 加 56%. 
本 例 Cox 模型 表达 式 为 : AD = ho(t)exp(0.234AGE + 0.445DTIME) 。 表 达 式 右边 指数 部 分 
取 值 越 大 ， 则 风险 函数 h(t) 越 大 ， 预 后 越 差 ， 称 为 预后 指数 (PI)。 此 研究 提示 及 早 诊断 和 
治疗 可 延长 大 肠 癌 患者 的 手术 后 生存 期 ， 年 轻 患 者 预后 要 优 于 老年 患者 。 


| in the T 





Er ENTUM p(B; 


| was | lower | 5 
— dime La s 26.007 E 
Step2 age 234 11.726 ooi 1209 i 0 1.444 
dime 20.139 1.285 1.894 
结果 16-9 ”回归 方程 各 参数 的 估计 和 值 


结果 16-10 显示 未 被 选 入 方程 的 变量 ， 按 照 Cox 模型 的 最 大 似 然 估 计 原 则 ， 当 模型 中 
增加 自 变 量 时 ，L ( 似 然 函 数值 ， 取 值 在 0 到 1 之 间 ， 其 对 数 in(Z 称 为 对 数 似 然 函 数 ， 取 
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值 在 负 无 穷 大 到 0 之 间 ) 将 增 大 , 而 -2ln(D) 将 减 小 , 在 自 变量 个 数 即 模型 的 自由 度 一 定时 ， 
-2ln(D 取 值 最 小 的 模型 最 好 ， 这 一 点 类 似 于 多 重 线性 回归 中 的 剩余 平方 和 。 于 是 我 们 可 以 
根据 模型 的 -2ln(D) 数 值 大 小 来 考虑 自 变 量 的 筛选 。 本 例 中 3 个 自 变量 都 选 入 不 如 只 选 age 
和 dime 这 两 个 变量 建立 模型 好 ， 所 以 变量 sex 未 被 选 入 。 

结果 16-11 为 各 自 / 协 变 量 的 均值 。 


Variables not in the Equation *5 


ru Lm = Ts] Covarlate Means 





ogs 
Step 2 2 i sex .S00 
a. Residual Chi Square = 7.881 with 2 df Sig. = .019 age 96.867 
b. Residual Chi Square = 2.561 with 1 df Sig. = 110 dtime | — 11.067 
结果 16-10 未 被 选 入 方程 的 变量 结果 16-11 各 自 / 协 变量 的 均值 


如 结果 16-12 所 示 是 在 各 协 变量 均值 水 平时 的 累积 生存 函数 曲线 ， 其 意义 在 于 研究 
样本 所 在 总 体 人 群 总 的 生存 率 变化 情况 。 本 例 大 肠 癌 患 者 术 后 30 个 月 以 上 的 生存 率 非常 
低 。 


Survival Function at mean of covariates 


Cum Survival 
e 
e 


结果 16-12 ”基于 各 协 变量 均值 的 生存 曲线 


16.4 “时间 依存 变量 的 处 理 方 法 
16.4.1 时间 依存 变量 Cox 模型 


在 建立 Cox 回归 方程 时 ， 有 时 风险 比例 会 随时 间 变 化 而 变化 ， 或 者 一 个 〈 或 多 个 ) 协 
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变量 的 值 随时 间 而 变化 。 此 时 ， 就 不 能 用 前 面 所 介绍 的 Cox 比例 风险 回归 模型 了 ， 而 应 改 
为 时 间 依 存 协 变量 模型 ， 也 称 为 非 比 例 风险 模型 。 在 分 析 这 样 的 模型 时 ， 必 须 首 先 指定 时 
间 依 存 协 变量 (多 个 协 变 量 时 就 必须 用 编程 来 做 )。 可 用 一 个 代表 时 间 的 系统 变量 (以 T 
表示 )， 来 完成 这 一 步 ， 有 如 下 两 种 方法 。 

(1) 假如 要 检验 关于 特殊 的 协 变量 的 比例 风险 假设 或 者 估计 一 个 非 比例 风险 Cox 回归 
模型 ,可 将 时 间 依 存 协 变量 指定 为 协 变 量 和 时 间 变 量 7_ 的 函数 。 常用 的 方法 是 把 时 间 变 量 
T_ 和 协 变 量 简单 地 进行 相 乘 〈 如 能 指定 更 复杂 的 函数 更 好 )， 然 后 通过 对 时 间 依 存 协 变量 
系数 的 显著 性 检验 来 判断 比例 风险 是 否 合理 。 

(2) Cox 过 程 的 另 一 种 情况 是 : 有 些 变量 虽然 在 不 同 的 时 间 点 取 不 同 的 值 ， 但 与 时 间 
并 非 系统 地 相关 ， 在 这 种 情况 下 ， 需 要 用 逻辑 表达 式 定 义 一 个 分 段 时 间 依 存 协 变量 ， 逻 辑 
表达 式 取 值 1 时 为 真 ， 取 0 时 为 假 。 用 一 系列 的 逻辑 表达 式 ， 可 以 从 一 系列 观测 记录 中 建 
立 自 己 的 时 间 依 存 变 量 。 例 如 ， 对 病人 血压 每 周 观察 一 次 ， 共 观察 4 次 ，( 变 量 名 为 BP1 
至 BP4)。 时 间 依 存 协 变 量 可 以 这 样 定 义 : 

Var=(T_< 1) * BP1 - (T >=1&T <2)*BP2+(T »-2 
& T <3)*BP3+(T »3& T «4)* BP4 

Kp. RR OBAI”, 即 一 般 编程 语言 中 的 “AND ”。 请 注意 括号 中 的 值 只 能 有 一- 
个 取 1， 而 其 他 的 值 只 能 取 0， 也 就 是 说 ， 这 个 函数 意味 着 当时 间 小 于 一 周 时 〈 此 时 第 一 
个 括号 内 取 值 为 1， 而 其 他 括号 内 取 值 为 0) 使 用 BP1 的 值 ， 大 于 一 周 而 小 于 两 周 时 使 用 
BP2 的 值 ， 依 此 类 推 。 

以 例 16-3 为 例 。 其 中 术 后 生存 时 间 time 以 月 为 单位 ，status 表示 随访 结局 ，3 个 协 变 
量 分 别 为 : 性 别 sex， 手 术 时 年 龄 age( 岁 )，dtime (月 )。 由 于 性 别 不 会 变化 ， 这 里 只 研 
究 手 术 时 年 龄 age 和 确诊 到 进行 手术 治疗 的 时 间 dtime 对 术 后 生存 时 间 的 影响 。 这 里 用 第 
一 种 方法 来 定义 时 间 依 存 变 量 。 

首先 ， 对 变量 age 和 dtime 分 别 拟 合 的 Cox 回归 模型 进行 诊断 ， 以 判断 age 和 dtime 
是 否 是 时 间 依 存 变量 ， 可 通过 以 下 操作 实现 。 

(1! 应 用 Cox Regression 过 程 ， 选 择 变量 age 进入 Cox 回归 模型 〈 操 作 过 程 如 上 节 所 
述 )， 和 需要 指出 的 是 要 进入 Save 子 对 话 框 ， 在 Diagnostics 复 选 框 组 中 选择 模型 诊断 指标 ， 
Partial residuals 〈 偏 残 差 )。 

(2) 选择 Graphs 一 Scatter Dot... 系统 弹出 Scatter/Dot 对 话 框 , 选 定 Simple Scatter 后 ， 
单 击 Define 按钮 ， 接 着 弹出 Simple Scatterplot 对 话 框 ( 见 图 16-16)， 选 择 了 轴 为 age 的 偏 
残 差 XX 轴 为 术 后 生存 时 间 time， 做 散 点 图 ( 见 图 16-17)。 通 过 散 点 图 来 检验 比例 风险 假 
设 ， 如 果 关 于 age 的 比例 风险 假设 是 正确 的 ， 则 散 点 图 应 该 是 杂乱 无 序 的 。 然 而 ， 本 例 散 
点 图 显示 age 的 偏 残 差 与 术 后 生存 时 间 time 之 间 旺 明显 的 负 相关 ,说 明 age 是 时 间 依 存 变 
量 。 
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D MDA [status] ETET 
t3) [sex] 局] 4$» Partial residual for age [F 


D FREH [age] 


DMF [a] [SARERA liei 








E] 
点 
m 
3S 
$ 
CE 
E 
A - 
| xpo s s Gss kuis sa R Sq Linear = 0.353 
z 0 10 20 30 40 50 60 
Iuliam 术 后 生存 时 间 
图 16-16 Simple Scatterplot 对 话 框 16-17 age 的 偏 残 差 和 术 后 生存 时 间 的 散 点 图 


同 理 ， 选 择 dtime 进入 Cox 回归 模型 ， 重 复 以 上 操作 ， 结 果 显 示 dtime 也 是 时 间 依 存 
变量 (PLE 16-18). 


Partial residual for dtime 





图 16-18 dtime 的 偏 残 差 和 术 后 生存 时 间 的 散 点 图 


16.4.2 Cox w/Time-Dep Cov 过 程 操作 说 明 


1. 过 程 操作 
*! 指定 Cox Regression 过 程 操作 提示 
Analyze 
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-Survival 
Cox w/Time-Dep Cov... 


a 时 间 依 存 变 量 预 定义 对 话 框 操作 提示 (IE 16-19) 

图 16-19 左边 的 框 中 列 出 了 数据 库 中 的 所 有 变量 ， 以 供 构造 时 间 依存 变量 时 使 用 ， 其 
中 的 也 是 系统 提供 的 时 间 变 量 。 可 以 用 右边 的 各 个 键 和 SPSS 提供 的 各 种 函数 构造 时 间 依 
存 变量 ; 也 可 以 在 右边 的 Expression forT_COV _ 框 中 直接 输入 时 间 依 存 变 量 的 表达 式 ， 本 
例 输入 T_*age。 时 间 依 存 变 量 构造 完成 以 后 ， 单 击 Model 按钮 ， 出 现 Time-Dependent Cox 
Regression 对 话 框 〈 见 图 16-20). 
% Time-Dependent Cox Regression 对 话 框 操作 提示 ( 见 图 16-20) 


这 里 的 操作 与 Cox Regression 过 程 完 全 一 样 ， 只 是 在 Covariates 框 中 输入 时 间 依 存 变 
量 T_COV_， 如 有 别 的 不 随时 间 变 化 的 协 变量 ， 也 要 一 并 输入 Covariates 框 中 。 


x 注意 : 由 于 本 例 有 两 个 时 间 依存 变量 ， 仅 用 SPSS 的 菜单 及 对 话 框 是 无 
”法 完成 分 析 任务 的 ， 需 要 用 到 编程。 


mg Compute Time-Dependent Covariate 
QY gessmeLoM. 
Ò AE ?ERII lime] T) -oo| 
| 








D BOSE [status] 

& HERI [sex] 
sj <|>] 7|81 9| functions: 
l 好 | >=| 4151 6]. [ABSinumexpi 
ESTE dbi a 
4| & 1| 0 |. |ARTANIumexpi) 


E CDFNORM(zvalue) 
| |J] Delete | [COF BERNOULLI(a p) 


_Beset | Cancel | Heb | 














图 16-19 时间 依存 变量 预定 义 对 话 框 图 16-20 Time-Dependent Cox Regression 对 话 框 


在 Covariates 框 中 选 入 时 间 依 存 变量 T_COV_ 后 ， 单 击 Paste 按钮 ， 将 菜单 操作 粘贴 
为 SPSS 程序 ， 再 对 粘贴 的 程序 做 一 些 修 改 。 这 里 将 原来 定义 的 时 间 依 存 变量 T COV. 3E 
名 为 变量 T_COV_1, 然后 添加 一 个 时 间 依 存 变 量 T_COV_2。 最 后 ,在 Syntax 窗口 中 选择 
菜单 Run 一 All, 运 行 该 程序 ( 见 图 16-21)。 


or 
Eile Edit Yiew Data Iransfora énalyze Graphs Utilities Run Window Help 
SEa 5| ol Belk] Ml +l l Fal 





COV 2 
/CRITERIA=PIN(.05) POUT(.10) ITERATE (20) . 





图 16-21 运行 程序 对 话 框 
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结果 解释 
结果 16-13 输出 总 例 数 、 删 失 例 数 和 失 访 例 数 。 


Case Processing Summary 


| LN | Percent | 


Cases avallable Event? 
in analysis - Censored 


Total 


Cases dropped Cases with missing 
values 


Cases with negative time 


Censored cases before 
the earliest event in a 
stratum 


Total 





a. Dependent Variable: 术 后 生存 时 间 
结果 16-13 ”输出 总 例 数 、 删 失 例 数 和 失 访 例 数 
结果 16-14 为 Omnibus Tests of Model Coefficients 结果 。 


Block 0: Beginning Block 
Omnibus Tests of Model Coefficients 


—2 Log 
Likelihood 





142.748 


结果 16-14 Omnibus Tests of Model Coefficients 结果 


结果 16-15 显示 协 变量 进入 模型 的 方法 是 “Enter” 法 ， 同 时 对 模型 中 所 有 协 变量 回归 
系数 《常数 项 除外 ) 是 否 全 部 为 零 进 行 统计 检验 。 本 例 结果 显示 ， 让 不 全 为 0。 


Block 1: Method = Enter 


Omnibus Tesis of Model Coefficient}? 


F> From pom euo ep 一 Step RM From BPI Block 
Like! 


lihood | Chisquare | quare | Sg | Chi-square | quare | sg. |chisquare | quare 
133.283 Fes 4, aee | t. 39, [eae | 2n 


Q. Beginning Block Number 0, initial Log Likelhood function: -2 Log likelihood: 142.748 
b. Beginning Block Number 1. Method - Enter 





结果 16-15 Omnibus Tests of Model Coefficients 结果 


结果 16-16 输出 方程 中 时 间 依 存 协 变量 的 系数 、 标 准 误 、Wald 卡 方 值 、 自 由 度 、P 值 、 
OR 值 。 
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Voriobles in the Equation 


— Eg E | s | sa L Peg | 
T "VT 1 3 21.715 1 T 
T_COV_2 29.612 1.024 

结果 16-16 ”输出 方程 中 的 变量 信息 

结果 16-17 输出 协 变量 均 数 。 








Covariate Means 


Tas] 


结果 16-17 ”输出 协 变量 均 数 
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x 17 章 “” 聚 类 、 判 别 与 决策 树 分 析 





17.1 概述 


聚 类 分 析 、 判 别 分 析 和 决策 树 分 析 都 是 研究 事物 分 类 的 基本 方法 。 聚 类 分 析 是 从 事物 
数量 上 的 特征 出 发 对 事物 进行 分 类 ， 是 数值 分 类 学 和 多 元 统计 技术 结合 的 结果 ， 是 一 种 较 
粗糙 的 、 理 论 并 非 完 善 的 分 析 方法 ， 但 是 其 使 用 简便 ， 分 类 效果 较 好 ， 其 内 容 也 在 不 断 丰 
富 中 ， 是 常用 的 数据 探索 性 分 析 工 具 。 判 别 分 析 则 是 从 已 有 分 类 结果 的 训练 样本 中 提取 信 
息 ， 构 造 判别 函数 ， 然 后 使 用 判别 函数 对 未 知 分 类 样本 的 分 类 做 出 判断 。 而 决策 树 分 析 是 
数据 挖掘 的 一 个 重要 方法 ， 通 常 采 用 分 类 树 与 回归 树 直 观 反 映 分 类 的 结果 。 


17.1.1 聚 类 分 析 基 础 知识 


聚 类 分 析 (Cluster Analysis)， 又 称 集群 分 析 ， 其 分 析 的 基本 思想 是 依照 事物 的 数值 特 
征 ， 来 观察 各 样品 之 间 的 亲 朴 关系 。 而 样品 之 间 的 亲 玻 关系 则 由 样品 之 间 的 距离 来 衡量 ， 
一 旦 样品 之 间 的 距离 定义 之 后 ， 则 把 距离 近 的 样品 归 为 同一 类 。 传 统 的 聚 类 分 析 要 求 聚 类 
变量 为 数值 变量 。 设 xa 为 第 i 个 样品 的 第 k 个 指标 ,每 个 样品 测量 了 jp 个 变量 ， 则 样品 x; 
和 xj 之 间 的 距离 《 D; ) 的 定义 为 

Dj(4) - (l xa — xg I) (17-1) 
kzl 

AX (17-1) 称 明 考 夫 斯 基 CMinkowshi) 距离 ， 其 中 q 为 大 于 0 的 正 数 。 

当 gz1 时 ，Dy() o Els -xjx 1， 称 为 绝对 值 距离 或 曼哈顿 (Manhattan) PER, SPSS 

k=1 
称 “block”。 

当 g=2 时 ，D;(2)= $i xg —xg P) 7, SCONMKISEEES (Euclidean Distance). 

k=1 


当 g=co 时 ， Dr (oo) = max ixi 一 xx1， 称 切 比 雪夫 距离 (Chebychev Distance). 
XS sp 


54 i 分 
也 可 以 定义 变量 之 间 的 距离 ， 常 用 的 两 种 定义 方法 是 夹 角 余 弦 法 和 相关 系数 法 。 变 量 
x; Fl x; 的 夹 角 余弦 Cy 为 
Y oun 
k=1 


Y Gua - X) — xj) 
n- kb LL (17-3) 


1/2 
[= 一 五 | $ ay -x ) 
k=1 k=1 
C; R r; FERE RETR READUR C, ZEKER Dy 由 下 式 定义 : 
D; = J1- Cj (17-4) 


Cy = (17-2) 


AE T x M x; WARRE n; 28 


或 
Dj = J1l- r2 (17-5) 
聚 类 分 析 既 可 以 对 样品 聚 类 ， 又 可 以 对 变量 聚 类 ， 样 品 聚 类 也 称 Q 型 聚 类 ， 变 量 聚 类 
也 称 R 型 聚 类 。 根 据 样本 量 的 大 小 ， 可 以 使 用 层次 聚 类 (Hierarchical Cluster) 或 KK 中 心 
RÆ (K-Means Cluster) 的 方法 ， 后 者 属于 一 种 快速 聚 类 方法 。 当 样本 量 较 大 ， 数 值 变 量 
和 分 类 变量 并 存 时 ， 也 可 以 使 用 二 阶段 聚 类 CTwo-step Cluster) 法 。 


17.1.2 ”判别 分 析 基 础 知识 


判别 分 析 (Discriminant Analysis) 是 类 别 明确 的 一 种 分 类 技术 ， 它 根据 观测 到 的 某 些 
指标 对 所 研究 的 对 象 进行 分 类 ， 得 到 所 谓 的 判别 函数 ， 然 后 再 使 用 判别 函数 对 未 知 分 类 的 
样品 进行 分 类 。 和 聚 类 分 析 不 同 的 是 ， 判 别 分 析 需 要 有 人 金 标准 。 

常用 的 判别 分 析 方法 有 距离 判别 、Fisher 的 典型 判别 和 Bayes 判别 。 距 离 判别 和 典型 
判别 对 数据 分 布 无 严格 要 求 ， 而 Bayes 判别 则 要 求 数据 服从 多 元 正 态 分 布 。 


17.1.3 SPSS 聚 类 和 判别 分 析 模 块 


SPSS 康 类 和 判别 分 析 模 块 集成 在 Analyze 中 的 Classify 模块 中 ,提供 TwoStep Cluster 
(二 阶段 聚 类 )、K-Means Cluster (K 中 心 聚 类 )、Hierarchical Cluster (层次 聚 类 ) 三 种 分 
析 方 法 ,以 及 Tree (决策 树 ) 和 Discriminant (判别 分 析 ) 功能 CALR 17-1)。 其中, TwoStep 
Cluster 在 SPSS 12 以 后 版 本 中 出 现 ，Tree 在 SPSS 13 中 出 现 ，Tree 实际 上 是 将 SPSS 的 决 
策 树 软件 AnswerTree 集成 进来 的 结果 。 
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veles | Reports 
L2 IJ ml: [=l tlk] Descriptive Statistics 
1: manufact MES Acul Tables 


Compare Means 
& General Linear Model 


0 
0 
0 
0 
n 


, IwoStep Cluster 
K-Meens Cluster. 
Hierarchical Cluster. 





Missing Value Analysis... 


Park 4 Complex Samples , 20.190 
ac ala i — £ 


图 17-1 SPSS 聚 类 和 判别 分 析 主 模块 


17.2 RADAR 


17.21 二 阶段 聚 类 


二 阶段 聚 类 模型 是 一 种 新 型 的 分 层 聚 类 算法 〈Hierarchical Algorithms)， 目 前 一 般 应 用 
在 DataMining (数据 挖掘 ) 与 多 元 统计 的 交叉 领域 一 模式 分 类 中 ， 其 算法 适用 任何 尺度 的 
变量 。 

汽车 市 场 调查 数据 见 配 书 光 盘 中 的 数据 文件 data17-1.xls 和 datal7-1.sav。 
研究 者 调查 了 市 场 上 汽车 的 有 关 数 据 ， 包 括 销售 方面 的 数据 和 汽车 本 身 的 各 项 参数 。 变 量 
type 为 汽车 分 类 ， 有 两 个 分 类 ， 轿 车 和 卡车 ， 分 别 以 0 和 1 表示 ; 其 他 变量 除了 前 两 个 为 字 
符 串 变量 外 ， 其 余 的 都 为 数值 变量 。 试 以 此 数据 对 汽车 进行 聚 类 分 析 ， 并 观察 轿车 和 卡车 所 
属 类 别 的 情况 。 

本 例 数 据 样本 量 较 大 , 有 157 例 , 并 且 聚 类 变量 有 分 类 变量 , 适合 使 用 二 阶段 聚 类 方法 。 

1. 操作 提示 

打开 数据 文件 data17-1.sav， 在 菜单 栏 上 单 击 Analyze— Classify— TwoStep Cluster, ## 
出 二 阶段 聚 类 分 析 主 对 话 框 〈 见 图 17-2)， 对 话 框 的 左上 部 列 出 数据 集中 待 选 变量 列表 ， 
右上 部 有 上 下 两 个 框 ， 上 边 为 Categorical Variables 框 ， 此 框 填 入 分 类 变量 ; 下边 为 
Continuous Variables 框 ， 此 框 填 入 数值 变量 〈 或 称 连 续 型 变量 )。 

二 阶段 聚 类 分 析 主 对 话 框 中 的 其 他 选项 如 下 。 

* Distance Measure: 距离 度量 选项 ， 有 以 下 两 个 。 


"BLog-likelihood 守 对 数 似 然 函数 ， 当 有 分 类 变量 时 只 能 使 用 本 选项 
Euclidean 一 欧 氏 距离 ， 如 果 聚 类 变量 都 是 数值 变量 ， 可 选 此 项 
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SJ ff [manufact] 
M 219 [model] 


| | € Schwarz's Bayesian Criterion (BIC) | 





图 17-2 ”二 阶段 聚 类 分 析 主 对 话 框 


* Count of Continuous Variables: 连续 型 变量 或 数值 变量 个 数 ， 包 括 需要 进行 标准 化 的 变 
量 个 数 (To be Standardized) 和 假设 已 经 做 了 标准 化 的 变量 ( Asssumed Standardized) 
个 数 。 

* Number of Clusters: 规定 分 类 数 选 项 ， 可 选择 由 程序 自动 选取 最 优 分 类 数 ， 但 是 要 
求 指定 最 大 分 类 数 ， 也 可 以 指定 一 个 具体 的 分 类 数 。 


JBDetermine automatically ”一 自动 确定 分 类 数 ， 下 面 要 求 输 入 最 大 分 类 数 ， 黑 认为 15 
Specify fixed 一 给 出 确定 的 分 类 数 


* Clustering Criterion: 判断 最 优 聚 类 数 的 准则 ， 可 选择 BIC 和 AIC， 默 认为 BIC, 

° Options 子 对话 框 : 主要 选择 数值 变量 是 否 需要 进行 标准 化 ， 默 认为 全 部 数值 变量 
做 标准 化 (To be Standardized)， 如 果 某 些 变量 无 需 标准 化 ， 则 将 此 变量 选 入 假设 已 
标准 化 栏 (Assumed Standardized)， 一 般 都 需要 进行 标准 化 。 此 对 话 框 还 可 以 对 聚 
类 特征 树 (CF Tree). 的 细节 进行 规定 ， 供 对 算法 熟悉 者 选用 。 

° Plots 子 对 话 框 〈 见 图 17-3): 对 图 形 输出 结果 的 细节 做 出 规定 。 


Within cluster 全 此 选项 要 求 输出 各 类 中 各 变量 的 描述 性 统计 特征 。 如 
percentage chart 果 聚 类 变量 是 分 类 变量 ， 则 给 出 百 分 条 图 ; 如 果 是 数 
值 变 量 ， 则 给 出 变量 在 各 类 中 的 均 数 和 95% 置 信 区 间 
-Cluster pie chart 此 选项 要 求 输出 各 类 中 包含 个 体 的 比例 ， 以 人 饼 图 形式 
给 出 
Variable Importance Plot ”一 各 聚 类 变量 的 相对 重要 性 图 
Rank Variables - 一 变量 排列 方式 选项 。By cluster, 以 类 排列 ; By variable, 
以 变量 排列 
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图 17-3 ”二 阶段 聚 类 的 Plots 子 对 话 框 


° Output 子 对 话 框 〈 见 图 17-4): 此 对 话 框 分 3 部 分 ， 上 面部 分 为 统计 量 输出 选项 
中 间 部 分 问 是 否 需要 在 数据 集中 创建 聚 类 结果 变量 ， 下 面部 分 问 是 否 需要 以 XML 
文件 方式 输出 最 终 聚 类 模型 和 聚 类 特征 树 。 








a E ] Rx, 各 要 类 对 应 的 信息 
”变化 情况 ( 此 为 判断 最 优 分 类 数 的 依据 i 
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与 统计 分 


Create cluster membership variable 号 创 建 聚 类 结果 交 量 


Export final model SA XML 文件 方式 导出 最 终 模 型 
Export CF tree cy) XML 文件 方式 导出 聚 类 特征 树 
< 注意 : 导出 的 XML 文件 需要 用 SMARTSCORE 软件 或 服务 器 版 本 的 
”SPSS 软件 打开 。 
2. 结果 解释 


将 主 对 话 框 和 子 对 话 框 有 关内 容 定义 完毕 后 〈 参 考 图 17-2 至 图 17-4), 单 击 OK 按钮 ， 
即 可 得 到 二 阶段 聚 类 分 析 的 结果 。 

首先 ， 结 果 17-1 给 出 聚 类 过 程 中 各 类 别 数 对 应 的 信息 准则 统计 量 BIC 〈 如 果 选 AIC， 
则 这 里 列 出 AIC 统计 量 表 )， 这 个 结果 类 似 层 次 聚 类 的 结果 ， 即 从 系统 规定 的 最 大 聚 类 数 
15 一 直到 全 部 个 体 聚 为 1 类 的 BIC 统计 量 及 其 变化 情况 ， 系 统 判断 最 优 分 类 数 为 BIC 最 
小 者 。 此 例 显示 ， 当 分 类 数 为 3 时 ，BIC=893.4 为 最 小 ， 从 数据 来 看 则 可 判定 : 所 有 个 体 
分 为 3 类 是 合适 的 。 


Auto-Clustering 


Bayesian Ratio of BIC Distance 
Number of Clusters | Criterion (BIC) | BIC Change | Changes” | Measures” 
1 1127.133 


959.692 - 

893.404 

921.623 

970.423 
1031.720 
1112.672 
1193.773 
1281.684 
1371.664 
1463.115 
1555.058 
1648.919 
1743.800 
1841.946 































a. The changes are from the previous number of clusters in the table. 
b. The ratios of changes are relative to the change for the two cluster solution. 


C. The ratios of distance measures are based on the current number of 
clusters against the previous number of clusters. 


结果 17-1 自动 聚 类 过 程 中 各 类 别 数 对 应 的 BIC 统计 量 列表 


结果 17-2 给 出 的 是 聚 类 分 析 中 各 数值 变量 在 各 类 别 中 的 重心 , 实际 上 就 是 各 类 中 由 类 
内 所 有 个 体 出 发 计算 的 均 数 向 量 〈 原 始 结果 表格 还 有 标准 差 ， 此 处 略 去 ， 并 把 表 的 行列 进 
行 了 转换 )。 这 个 结果 很 重要 ， 可 以 帮助 分 析 各 类 别 的 具体 特征 。 本 例 中 ， 第 1 类 汽车 可 
以 总 结 为 车 体 小 〈 长 、 宽 小 ， 空 车 质量 小 )、 功 率 小 〈 功 率 、 发 动机 容量 均 小 )、 价 格 低 和 
油耗 低 的 经 济 车 类 ; 第 2 类 和 第 1 类 正好 相反 ， 为 公务 车 或 商务 车 类 ; 第 3 类 车 为 价格 适 
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中 但 空 车 质量 大 、 油 耗 高 、 燃 油 效率 低 的 一 类 车 。 结 果 17-2 的 最 后 1 列 Combined 为 合并 
均 数 向 量 ， 相 当 于 原始 数据 样本 均 数 ， 可 以 和 各 类 内 均 数 相 比 较 。 


Centrolds 


68.636 
















72.750 71.190 




















178.949 191.304 187.718 
27.89 19.75 24.12 
2.76827 3.85089 3.32405 


14.629 
61.58433 


11.55600 
16.71391 
102.860 
134.51 
2.140 


21.904 
97.91689 


16.28821 
24.35425 
113.339 
178.39 
3.432 


17.813 
59.11232 


18.03154 
25.96949 
107.326 
181.28 
3.049 




































结果 17-2 ”各 类 别 重 心 〈 数 值 聚 类 变量 在 各 类 中 的 均 数 向 量 ) 


结果 17-3 为 分 类 变量 〈 本 例 为 type 变量 ) 在 各 类 别 内 的 频数 分 布 情况 。 从 此 结果 可 
见 ， 样 本 中 轿车 被 纳入 第 1，2 类 ， 对 应 经 济 车 和 公务 车 型 ， 而 卡车 除了 一 个 样本 被 划 入 
经 济 车 类 别 外 ， 其 他 被 纳入 第 3 类， 可见， 本 聚 类 结果 基本 符合 专业 常识 。 
分 类 


- Em Quene Len ——2 guene RTI 





Cluster H 
` 
> e 696 
Combined 00.096 


结果 17-3 ”分 类 变量 在 各 类 别 中 的 频数 分 布 


在 聚 类 分 析 中 ， 我 们 可 能 使 用 很 多 聚 类 变量 ， 虽 然 较 多 的 聚 类 变量 可 以 提供 更 多 的 育 
类 信息 ， 帮 助 更 为 有 效 地 分 类 ， 但 是 各 聚 类 变量 在 聚 类 分 析 中 的 重要 性 是 不 同 的 ， 而 且 有 
些 变量 对 聚 类 分 析 并 无 价值 。 结 果 17-4 给 出 了 各 数值 聚 类 变量 对 分 类 的 贡献 ,这 种 贡献 是 
用 1 值 的 大 小 来 衡量 的 。 


r^» 
3 


2 x 提示 : 所 谓 二 阶段 聚 类 ， 完全 是 基干 算法 的 命名 ， 从 最 后 的 聚 类 结果 看 ， 

"ET 并 不 能 体现 “二 阶段 ”特征 。 有 时 系统 自动 给 出 的 最 优 分 类 数 并 不 一 定 和 你 
预期 的 分 类 数 完 全 一 致 ， 比 如 说 ， 本 例 你 想得到 分 成 4 类 的 结果 ， 只 需要 在 
图 17-2 的 主 对 话 框 中 的 Number of Clusters ££ F 4 3& Specify fixed, 并 在 下 面 
的 框 中 填 入 4 即 可 。 





结果 17-4 是 以 第 3 类 为 例 ， 解 释 各 数值 案 类 变量 对 分 类 的 作用 (第 1，2 类 的 结果 图 
和 解释 从 略 )。 此 结果 为 带 两 条 95% 置 信 限 的 条 图 ， 条 的 长 短 为 1 统计 量 。 判 断 方法 是 ; í 
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绝对 值 越 大 的 变量 对 分 类 的 贡献 越 大 , 未 超过 95% 置 信 限 的 条 所 代表 的 变量 就 对 此 分 类 无 
甚 价 值 了 。 本 例 中 ， 燃 烧 效 率 、 油 耗 、 空 车 质量 是 对 本 类 贡献 最 大 的 3 个 变量 ， 其 他 变量 
对 应 的 + 值 较 小 ， 未 超过 95% 置 信 限 ， 可 以 忽略 不 计 。 根 据 上 述 3 个 变量 对 应 1 统计 量 正 
负 号 ， 可 以 总 结 为 燃烧 效率 低 、 油 耗 高 、 空 车 质量 大 为 本 类 主要 特征 。 


Two Step Cluster Number =3 
Bonferroni Adjustment Applied 


Rd Critical Value 


= Test Statistic 


Variable 








Student's t 


结果 17-4 数值 变量 对 分 类 的 贡献 


17.2.2 K 中 心 聚 类 


K 中 心 聚 类 为 一 种 快速 聚 类 方法 ， 适 合 处 理 大 样本 数据 。K 中 心 聚 类 要 求 聚 类 变量 为 
数值 变量 ， 研 究 者 事先 需要 指定 分 类 数 玉 ， 各 分 类 中 心 的 初 值 可 以 由 研究 者 指定 ， 也 可 以 
由 程序 自动 给 出 。K 中 心 聚 类 采用 从 代 算 法 ， 不 断 调整 各 分 类 中 心 位 置 ， 直 到 收敛 。 

Ld 例 17-2 | datal7-2.sav (数据 来 自 方 积 乾 主编 的 《医学 统计 学 与 电脑 实验 》) 为 某 
整形 医院 外 科 收 集 的 300 例 单 侧耳 缺损 病人 健康 侧耳 的 外 形 测 量 数据 ， 研 究 者 想 根据 这 些 
数据 产生 4 类 标准 耳 型 ， 用 于 耳 缺 损 修 复 。 

本 例 数 据 属于 较 大 样本 资料 ， 聚 类 变量 为 数值 变量 ， 且 研究 者 对 分 类 数 已 经 有 专业 上 
的 要 求 ， 故 使 用 KK 中 心 聚 类 法 处 理 。 

1. 操作 提示 

打开 数据 文件 data17-2.sav， 在 菜单 中 单 击 Analyze 一 Classify 一 K-Means Cluster， 弹 出 
K 中 心 聚 类 分 析 主 对 话 框 〈 见 图 17-53)， 选 入 聚 类 变量 后 ， 在 Number of Clusters 框 中 填 入 
4， 其 他 位 置 使 用 默认 选项 即 可 。 单 击 Save 子 对 话 框 ， 勾 选 Cluster Membership， 即 要 求 
在 数据 集中 产生 分 类 结果 变量 ， 然 后 单 击 Continue 按钮 返回 主 对 话 框 。Iterate 子 对 话 框 为 
友 代 细节 选项 ， 一 般 不 需要 改变 默认 设置 ，Options 为 输出 统计 量 选项 和 缺失 值 处 理 选 项 ， 
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勾 选 ANOVA table。 最 后 单 击 OK 按钮 。 


| K-Neans Cluster Analysis 


Variables: 
DHK [EC] 


eg $ H3 [EK] 
Ò E^MRIE [EZ] 


Label Cases by: 


Das Method 
(* |terate and classy ~ (^ Classify only 








17-5 K 中 心 聚 类 分 析 主 对 话 框 


> K 中 心 聚 类 各 选项 的 含义 


“Label Cases by 一 指定 样品 的 标签 变量 

Method 一 聚 类 方法 ， 可 选 选 代 法 和 仅 做 分 类 ， 后 者 用 于 
事先 知道 分 类 中 心 的 情况 

“Cluster Centers 一 分 类 中 心 选 项 ， 第 1 个 复 选 框 为 从 文件 读 取 初 
始 分 类 中 心 ， 第 2 个 复 选 框 为 将 分 类 中 心 最 疼 
结果 写 入 文件 

-人 Maxmum Iterations 一 指定 最 大 迭代 次 数 ， 为 Iterate 的 子 选 项 

Convergence Criterion 一 指定 收敛 判断 常数 ， 为 Iterate 的 子 选项 

Use running means 号 要 求 使 用 可 变 类 平均 数 ， 为 Iterate 的 子 选 项 

-Cluster Membership 全 要 求 在 数据 集中 添加 分 类 结果 变量 ,为 Save 的 
子 选项 


Distance from cluster center 一 要 求 在 数据 集中 添加 各 样品 到 分 类 中 心 的 距 
离 ， 为 Save 的 子 选项 


Initial Cluster Centers 一 要 求 输出 初始 分 类 中 心 

“ANOVA table 全 要 求 输出 方差 分 析 表 

Cluster information foreach case 后 要 求 输出 每 个 样品 的 分 类 结果 

Exclude cases listwise 呈 含 缺失 值 的 样品 仅 在 所 缺失 变量 上 不 参与 计算 
“Exclude cases pairwise SRA kki, KARAREHE 

2. 结果 解释 


结果 17-5 (a) 为 各 分 类 的 中 心 ， 实 际 上 就 是 4 种 “标准 耳 ” 的 尺寸 。 结 果 17-5 (b) 
为 各 类 中 所 含 样品 的 频数 ， 从 数据 来 看 , 前 2 种 耳 型 较 少见 ， 后 2 种 较 多 见 。 结 果 17-5 CO 
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为 方差 分 析 表 ， 分 析 各 聚 类 变量 是 否 有 统计 学 意义 ， 本 例 的 3 个 聚 类 变量 所 对 应 的 p fi 
(Sig) 很 小 ， 可 以 判定 此 3 个 变量 对 耳 型 分 类 有 价值 。 


Number of Cases in each Cluster 


Final Cluster Centers 


— e M—À 


Valid 
Missing 





TE 
耳 外 展 距 


(a) (b) 


ANOVA 


| Mean Square | df — [Mean Square | ot | 


TE 24.182 Di 489 -000 
HE 2.458 056 44.133 .000 
耳 外 展 距 1.732 .068 25.505 .000 


The F tests should be used only for descriptive purposes because the clusters have been 
chosen to maximize the differences among cases in different clusters. The observed 
significance levels are not corrected for this and thus cannot be interpreted as tests of the 
hypothesis that the cluster means are equal. 






(c) 
结果 17-5 K 中 心 聚 类 主要 结果 


17.2.3 ”层次 聚 类 


层次 聚 类 〈 也 称 系统 聚 类 ) 是 实际 工作 中 使 用 最 多 的 一 种 方法 。 层 次 聚 类 法 的 层次 含 
义 是 : 开始 时 每 个 样品 各 看 成 一 类 ， 将 距离 最 近 的 两 类 合并 ， 重 新 计算 新 类 与 其 他 类 的 距 
离 , 再 将 距离 最 近 的 两 类 合并 ; 再 计算 新 类 与 其 他 类 的 距离 ……， 这 样 一 步 步 地 进行 下 去 ， 
每 一 步 减 少 一 类 ， 直 至 所 有 的 样品 都 合并 成 一 类 为 止 。 整 个 聚 类 过 程 可 绘 成 聚 类 图 。 类 与 
类 之 间 的 距离 有 各 种 不 同 的 定义 方法 ， 定 义 不 同 即 产 生 不 同 的 算法 ， 而 不 同 的 算法 可 能 聚 
得 不 同 的 结果 。 选 用 何 种 结果 合适 ， 可 以 结合 专业 知识 帮助 判断 。 

datal7-3.sav 为 某 地 15 家 医院 的 床位 利用 率 、 治 愈 率 和 诊断 指数 〈 正 
确诊 断 指数 或 约 登 指 数 = 灵 人 敏 度 + 特 异 度 -1)， 试 使 用 层次 聚 类 法 进行 聚 类 分 析 。 

本 例 为 小 样本 资料 ， 可 使 用 层次 聚 类 分 析 方 法 。 

1. 操作 提示 

打开 数据 文件 datal7-3.sav, 在 菜单 中 单 击 Analyze 一 Classify 一 Hierarchical Cluster, 3 
出 层次 聚 类 分 析 主 对 话 框 〈 见 图 17-6)， 选 入 聚 类 变量 后 ， 在 Cluster 栏 中 选择 Cases, X 
求 做 样品 的 层次 聚 类 ， 如 果 选 择 Variables， 则 要 求 做 变量 聚 类 。 然 后 单 击 Method 按钮 ， 
弹出 Method 子 对 话 框 〈 见 图 17-7)， 指 定 聚 类 方法 和 距离 测度 ， 还 可 以 要 求 对 数据 做 标准 
化 变换 等 操作 。 
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Cluster Method: |ward's method 了 | 

Measure 

(* Intevat [Squared Euclidean distance v 
Rz Pz 


C Couns: 


C Binay: 








— 





Transform Values 
Slandardce: 人” Absolute values 
o t [ Change sign 
e [Í Rescale to 0-1 range 





图 17-6 层次 聚 类 分 析 主 对 话 框 图 17-7 层次 聚 类 分 析 聚 类 方法 子 对 话 框 
层次 聚 类 分 析 可 以 分 两 次 进行 ， 首先 要 求 输出 聚 类 过 程 的 冰 柱 图 ， 根 据 聚 类 过 程 和 专 


业 知 识 确定 分 类 数 ， 然 后 ， 再 要 求 输出 指定 分 类 数 的 分 类 结果 ， 并 使 用 Save 功能 将 分 类 
结果 保存 在 数据 集中 。 


> Cluster Method ( 聚 类 方法 ) 中 各 选项 的 含义 和 使 用 


JBBetween-groupslinkage 一 类 间 平 均 法 ， 倾 向 合并 偏差 较 小 的 类 
全 Within-groups linkage 一 类 内 平均 法 ， 倾 向 合并 偏差 较 小 的 类 


-Nearest Neighbor 一 最 邻近 距离 法 ， 适 用 于 非常 离散 的 资料 

Furthest Neighbor 一 最 远 距离 法 ， 受 异常 值 影响 大 ， 适 用 高 度 压缩 的 资料 
Clustering 一 中 间距 离 法 ， 为 前 两 种 方法 的 折 中 

-Centroid clustering 宇 中 心 法 ， 分 类 效果 较 差 ， 但 稳健 ， 对 异常 值 不 敏感 

-人 介 Ward's method 一 离 差 平方 和 法 ， 倾 向 得 到 各 类 样品 数目 接近 的 分 类 结 


果 ， 分 类 效果 好 但 对 异常 值 敏感 
3» Statistics ( 统计 量 输出 ) 中 各 选项 的 含义 和 使 用 


Agglomeration Schedule ”一 输出 聚 类 过 程 表 ， 此 为 默认 选项 
Proximity Matrix S iir h AAEE E 
Cluster Membership 全 输出 各 样品 分 类 结果 
None: 不 输出 分 类 结果 表 ; 
Single solution: 输出 指定 分 类 数 的 分 类 结果 表 ; 
Range of solutions: 输出 指定 分 类 数 范围 的 分 类 结果 表 。 


> Plots ( 图 形 输出 ) 中 各 选项 的 含义 和 使 用 


Dendrogram 一 要 求 输出 树 型 图 
Icicle = K dmg 
AII clusters 一 显示 全 部 聚 类 范围 
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"Specified ranges of clusters 一 显示 指定 的 聚 类 范围 

None 一 不 生成 冰 柱 图 

Orientation 号 指定 图 形 的 方向 
Vertical: EJ 659; 
Horizontal: 水 平方 向 。 


> Save ( 创建 结果 变量 ) 中 各 选项 的 含义 和 使 用 


“None 号 不 在 数据 集中 创建 新 变量 

Single solution 一 保存 单一 聚 类 结果 ， 即 创建 一 个 新 变量 | 
“Range of solutions cK4R—EILBSXXIcmR, ExouXTEY* 
2. 主要 结果 解释 


冰 柱 图 ( 见 结果 17-6 (a)) 反映 了 层次 聚 类 的 全 过 程 ， 它 是 分 析 聚 类 结果 和 判断 最 优 
分 类 数 的 依据 。 由 符号 “X” 纵 向 排列 代表 的 “ 冰 柱 ”的 融合 过 程 就 是 层次 聚 类 的 全 过 程 。 
原始 数据 有 15 个 样品 , 在 聚 类 起 始 阶段 为 1528, 然后 按照 既定 的 聚 类 方法 合并 两 个 样品 ， 
15 类 变 为 14 类 ， 观 察 结 果 17-6 〈a)， 发 现 样品 7 和 样品 3 最 先 融 合 ， 即 首先 把 它们 聚 为 
一 类 ; 然后 ， 由 14 类 聚 为 13 类 ， 此 时 样品 15 和 样品 8 融合 ， 依 次 进行 下 去 ， 直 到 15 个 
样品 聚 为 一 类 ， 即 所 有 的 冰 柱 融合 在 一 起 为 止 。 


Vertical loicle 


结果 17-6 (a)  EUDORESSIUKEEÉ RANEA Ward's method) 











x 


@ 0 0 O0 p Ov —| 


>< >< >< >< >< x xx x ox ox ox 
>< >< >< >< >< >< >< >< >< >< >< ><] 


>< x< >< x< x< x< x x x x x x 
>< >x x x x x x X x x x x x 


在 Plot 选项 中 选取 Dendrogram， 可 输出 树 型 图 ， 见 结果 17-6 (b). 

结果 17-6 的 结果 (a) 与 (b) HER: 如 果 分 成 两 类 ， 那 么 样本 4、10、14、13、12 
为 一 类 ，3、7、11、2、5、9、8、15、1、6 为 另 一 类 ; 如 果 分 成 三 类 ， 那 么 样本 1、6 独 
自 成 一 类 ，3、7、11、2、5、9、8、15 为 第 二 类 ， 样 本 4、10、14、13 为 第 三 类 ，…… 
结果 17-6 (b) 的 聚 类 方法 不 同 ， 聚 类 结果 略 有 差别 。 

层次 聚 类 分 类 数 的 判定 : 一 种 方法 是 根据 专业 需要 ， 事 先 指定 分 类 数 ， 只 需要 在 冰 柱 
图 或 树 形 图 所 对 应 分 类 数 上 划 条 横 线 ， 就 得 到 分 类 结果 。 另 一 种 方法 是 如 果 事 先 对 分 类 数 
没有 规定 ， 则 考察 各 分 类 数 样品 的 归属 ， 利 用 专业 知识 判断 其 中 较 合 理 的 情形 。 


A" 
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Dendrogram using Average Linkage (Between Groups) 
Rescaled Distance Cluster Combine 


CASE D 5 10 15 20 25 





Label Num +-———+-+qTTq. YP 
34 
7 4— 
11 5 — 
2 -ni | 
5 =H — 
9— | | 
8 + ! t -= 
15 3 1 I 
1 = | 
6 一 l 
4 —— I 
10 — t——3À I 
M 一 一 一 上 一 一 I 
13 1 — 
12 





结果 17-6 (b) 层次 聚 类 的 树 形 图 


data17-4.sav 为 某 年 龄 组 儿童 体质 测量 数据 , 选 自 某 地 国民 体质 调研 抽 
样 调查 数据 库 。 试 使 用 变量 聚 类 法 进行 聚 类 分 析 。 

1. 操作 提示 

打开 数据 文件 datal7-4.sav, 在 菜单 中 单 击 Analyze— Classify— Hierarchical Cluster, 3 
出 层次 诊 类 分 析 主 对 话 框 ( 见 图 17-6)， 选 入 聚 类 变量 后 ， 在 Cluster 栏 中 选择 Variables, 
要 求 做 变量 聚 类 。 然 后 单 击 Method 按钮 ， 指 定 距离 测度 为 Cosine ( 夹 角 余弦 )。 其 他 细节 
参考 例 17-3, 

2. 结果 解释 

结果 17-7 为 变量 聚 类 的 冰 柱 图 。 如 果 将 变量 分 为 3 类 ， 则 反映 身体 形态 的 指标 胸围 、 
体重 、 身 高 和 坐 高 分 为 一 类 ， 反 映 身 体 机 能 素质 的 指标 分 成 了 2 类 ， 体 前 届 、 小 球 撕 远 和 
立定 跳远 反映 机 体力 量 和 和 柔 秆 性 ， 剩 余 3 项 指标 反映 了 机 体 的 速度 素质 和 心肺 机 能 。 这 个 
聚 类 结果 和 专业 知识 是 比较 吻合 的 。 
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结果 17-7 ”变量 聚 类 的 冰 柱 图 
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与 统计 分 


17.3 ”判别 分 析 


为 研究 心肌 梗塞 的 危险 因素 ， 某 研究 者 考察 了 心肌 梗塞 与 正常 两 组 人 
群 的 血脂 方面 的 6 项 指标 : TC〈 总 胆固醇 )、TG 〈 甘 油 三 酯 )、HDLC《〈 高 密度 脂 蛋 白 胆 固 
Bz). LDLC 〈 低 密度 脂 蛋 白 胆固醇 )、apo A CRUISER EI AD. apo B〈 载 脂 蛋白 B )。 指 标 测 
定 结果 见 data17-5.sav， 试 做 判别 分 析 。 

1. 操作 提示 

打开 数据 文件 data17-5.sav， 在 菜单 中 单 击 Analyze 一 Classify 一 Discriminant， 弹 出 判 
别 分 析 主 对 话 框 ( 见 图 17-8), 将 分 组 变量 “group” 选 入 Grouping Variable 栏 ， 激 活 Define 
Range 按钮 后 ， 填 入 分 组 变量 的 取 值 范围 ， 本 例 只 有 两 个 取 值 0 和 1， 故 填写 最 小 值 为 0、 
最 大 值 为 1。 继续 将 判别 变量 先入 Independents 栏 ， 选择 Use stepwise method， 要 求 做 逐步 
判别 , 即 边 做 判别 边 筛 掉 对 判别 函数 贡献 不 大 的 变量 。 如 果 选 择 Enter independents together, 
则 全 部 〈 自 ) 变量 都 用 来 构造 判别 函数 ， 而 不 管 这 些 变量 是 否 对 判别 函数 贡献 的 大 小 。 如 
果 在 样本 中 事先 划 出 一 部 分 用 来 考核 判别 效果 ， 则 需要 预先 定义 一 个 二 值 变 量 ， 标 志 哪 些 
样本 用 作 产 生 判 别 函数 ， 哪 些 样本 用 作 考核 。Selection Variable 栏 可 填 入 分 类 变量 ， 由 指 
定 变量 值 的 样本 产生 判别 函数 ， 其 他 样本 则 用 作 考 核 。 


BBB Discriminant Analysis 





图 17-8 ”判别 分 析 主 对 话 杠 


依次 单 击 Statistics. Method 和 Classify 按钮 ， 对 分 析 细 节 进 行 设 置 ， 见 图 17-9 和 图 
17-10, 一 般 使 用 系统 默认 选项 即 可 。 如 果 需 要 将 判别 分 析 结 果 保 存 到 数据 集中 ， 则 需要 单 
击 Save 按钮 进行 选择 。 
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Discriminant Analysis: Statistics 





图 17-9 判别 分 析 Statistics TOS EAE * 


> Statistics 子 对 话 框 ( 见 图 17-9) 中 各 选项 的 含义 和 使 用 
Descriptives: 描述 性 统计 量 选 项 


“Means 一 要 求 输出 均 数 、 标 准 差 等 描述 统计 量 
Univariate ANOVAs 一 要 求 给 出 单 变 量 方差 分 析 结 果 
-Box's M 一 要 求 输出 组 间 协 方差 齐 性 检验 结果 
Function Coefficients: 判别 函数 选项 

“Fisher's 号 要 求 给 出 Bayes 判别 系数 
"BUnstandardized 一 要 求 给 出 未 标准 化 的 判别 系数 


Matrices: 输出 矩阵 选项 ， 依 次 为 组 内 相关 阵 、 组 内 协 方差 阵 、 分 组 协 方差 阵 和 总 协 
方差 阵 


Discriminant Analysis: Stepwise Method 


e [===] 
“emes | 


f* Use F value 
Entry: [384 Removal: |2.71 
Help 


C Use probability of F 


m 


Í F for pairwise distances 





图 17-10 判别 分 析 Method 子 对 话 框 “ 


3» Method 子 对 话 框 ( 见 图 17-10 ) 中 各 选项 的 含义 和 使 用 
Method: 变量 筛选 准则 统计 量 选 项 


Wilk’s lambda 号 广义 方差 比 最 小 化 法 
Unexplained variance 号 组 间 不 可 解释 方差 和 最 小 化 法 
“Mahalanobis distance 一 邻近 两 组 间 马 氏 距 离 最 大 化 法 
Smallest F ratio : SIERAN 3c F Hh £. XC 
"BRao's V -Rao's V 统计 量 最 大 化 法 
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DN 与 统计 分 析 


Criteria: 给 定 变 量 选 入 或 剔除 标准 
Use F value 


“Use Probability of F 
Display: 输出 结果 选项 


Summary of steps 
“ÒF for pairwise distances 


使 用 FF 值 ， 要 指定 选 入 ( Entry ) FAR 
( Removal ) 值 

宇 使 用 概率 值 ， 同 样 也 要 指定 选 入 (Entry ) 
和 剔除 ( Removal ) 值 


输出 每 一 步 的 统计 量 摘 要 
呈 输 出 两 组 间 判 别 检验 的 玉 值 和 P 值 


Discriminant Analysis: Classification 


Prior Probabilities 

f* All groups equal 

(^ Compute from group sizes 
Display 

|  Casewise results 


[ Replace missing values with mean 





Use Covariance Matrix 
(€ Wfithin-groups 
€ Separate-groups 


Plots 

|^ Combined-groups 
ÍV Separate-groups 
[^ Teritorial map 


图 17-11. 判别 分 析 Classification 子 对 话 框 


Prior Probabilities: 设 定 先 验 概率 
-All groups equal 

"Compute from group sizes 
Display: 结果 输出 


Casewise results 


Summary table 

"BLeave-one-out classification 

Use Covariance Matrix: 使 用 协 方差 阵 
人 Within-groups 

"DSeparate-groups 

Plots: 判别 图 选项 
“©Combined-groups 


"DSeparate-groups 
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> Classification 子 对 话 框 ( 见 图 17-11) 中 各 选项 的 含义 和 使 用 


cA Ib Rc 
一 由 样本 计算 先 验 概率 


各 样品 的 判别 结果 ， 可 指定 只 输出 前 nn 个 样 
品 的 判别 结果 

全 判别 考核 表 

仿 刀 切 法 考核 结果 表 


cin rm 
一 各 组 协 方差 阵 


定做 包括 各 类 的 散 点 图 ， 如 果 只 有 1 个 判别 函 
数 ， 则 做 直方 图 

定 以 前 两 个 判别 函数 对 每 类 分 别 做 散 点 图 ， 如 
果 只 有 1 个 判别 函数 ， 则 做 直方 图 


聚 类 、 判 别 与 决策 树 分 析 


Territorial map 做 区 域 图 ， 此 图 可 以 直接 用 于 分 类 
Replace missing values with mean: 以 均 数 代替 缺失 值 


> Save 子 对 话 框 ( 保存 结果 变量 ) 中 各 选项 的 含义 和 使 用 


Predicted group membership 一 在 数据 集中 保存 分 类 结果 变量 
“Discriminant scores 一 在 数据 集中 保存 各 样品 的 判别 函数 分 值 
Probabilities of group member 一 输出 样品 属于 某 一 类 别 的 概率 

结果 解释 


结果 17-8 与 结果 17-9 为 逐步 判别 分 析 中 各 变量 选 入 和 剔 除 情 况 ， 以 及 相应 的 统计 量 
结果 ， 最 终 两 个 变量 hdlc〈 高 密度 脂 蛋 白 胆 固 醇 )》 和 tc《〈 总 胆固醇 )》 用 于 构造 判别 函数 。 


Variables in the Analysis 


Ea F to Remove maar 


[i hale  :| | 201352 | 


— | E EE — 
tc .740 


结果 17-8 ”变量 选 入 历史 









Variables Not in the Analysis 


Min. Wilks' 
-一 -一 一 -一 一 Fto Enter | Lambda 





.810 
.325 
.485 
.700 





结果 17-9 ”变量 被 剔除 历史 


结果 17-10 给 出 了 标准 化 典型 判别 函数 的 判别 系数 和 各 组 重心 。 从 这 个 结果 可 以 看 出 ， 
典型 判别 函数 分 值 大 者 被 划分 到 对 照 组 ， 反 之 则 被 划分 到 病例 组 ， 从 变量 的 判别 系数 看 ， 
hdlc 高 者 更 容易 被 判 入 对 照 组 ， 而 tc 高 者 则 与 心 梗 关系 密切 。 
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Functions at Group Centroids 
Standardized Canonical Discriminant Function Coefficients 
Niro 
quat, 1 à 
Fg Unstandardized canonical discriminant 
-801 functions evaluated at group means 
结果 17-10 ”标准 化 典型 判别 系数 〈 左 ) 和 各 组 重心 A) 
结果 17-11 为 判别 函数 直方 图 ， 图 中 直 条 为 样本 判别 分 数值 落 在 横 轴 各 区 间 的 频数 ， 


对 照 组 分 值 大 于 0 位 于 横 轴 的 右 侧 ， 而 病例 组 刚好 相反 ， 此 图 可 直观 反映 判别 函数 的 分 类 
效果 。 





Canonical Discriminant Function 1 


group= 对 照 组 








Canonical Discriminant Function 1 


group= 心 梗 组 





结果 17-11 分 类 图 ( 左 为 对 照 组 ， 右 为 病例 组 ) 


结果 17-12 为 判别 考核 结果 图 ， 列 出 了 普通 考核 〈 回 带 法 ， 表 上 半 部 分 ) 和 交叉 考核 
( 刀 切 法 ， 表 下 半 部 分 ) 的 考核 结果 ， 结 果 以 四 格 表 形 式 列 出 ， 并 计算 了 一 致 率 和 不 一 臻 
率 。. 
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Classification Result 中 * 


Membership. 
p | o | Total 

Original Count 30 
Ni 

76.7 23.3 100.0 

Cross-validateda Count 0 23 30 
m 

1 76.7 3s 3 100.0 

8. Cross validation is done only for those cases in the analysis. In 


cross validation, each case is classified by the functions derived 
from all cases other than that case. 


o 
1 
0 
1 





b. 78.3% of original grouped cases correctly classified. 
€. 76.7% of cross-validated grouped cases correctly classified. 


结果 17-12 ”判别 效果 考核 结果 


174 决策 树 分 析 


17.4.1 基本 原理 
1. 结 的 概念 
决策 树 分 析 是 数据 挖 据 中 的 一 个 重要 方法 。 尽 管 构造 树 的 具体 算法 和 划分 规则 较 复 
杂 ， 但 需要 解决 的 重要 问题 可 归纳 为 以 下 三 个 方面 。 
e 结 是 什么 ? 即 一 棵 树 中 哪些 为 内 结 ? 哪些 为 终 末 结 ( 叶 结 ) ? 何 为 根 结 、 母 结 、 子 
结 ， 也 就 是 一 棵 树 由 哪些 基本 要 素 构 成 ? 




















e 如 何 将 母 结 划分 成 子 结 ， 即 如 何 利 用 训练 样本 使 一 棵 树 从 根 结 逐渐 成 长 变 大 ? 
e, 结 在 何 时 成 为 终 末 结 ， 即 如 何 使 一 棵 树 变 得 不 至 于 太 大 。 如 何 修 前 一 棵 树 ， 使 之 大 
小 适中 。 
1 
2 3 
4 5 
6 7 














R 17-12 树 结构 的 示意 图 


如 图 17-12 所 示 的 这 棵 倒立 ) WA 4 个 结 层 〈 包 括 根 结 ) ， 一 般 来 说 ， 不 同 的 情况 
下 树 的 层 数 会 不 一 样 。 顶层 为 根 结 (Root Node) , 位 于 第 一 层 , 采用 圆圈 和 阿拉 伯 数 字 *“1” 
标识 。 第 二 层 有 一 个 终 末 结 (Terminal Node) 〈 方 框 和 阿拉 伯 数 字 “2” 标 识 ) 和 一 个 内 结 
(Internal Node)《〈 圆 图 和 阿拉 伯 数 字 “3” 标 识 )。 第 三 层 与 第 二 层 类 似 ， 也 有 一 个 终 末 结 
(Terminal Node)〈 方 框 和 阿拉 伯 数 字 “4” 标 识 ) 和 一 个 内 结 〈Internal Node) (AART 
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拉 伯 数 字 “5” 标 识 )。 第 四 层 的 两 个 结 均 为 终 末 结 〈 分 别 用 方 框 和 阿拉 伯 数 字 “6”. “7” 
标识 )。 图 中 用 圆圈 表示 的 是 包括 根 结 在 内 的 3 个 内 结 〈 非 终 末 结 )， 它 们 分 别 标 有 1, 3 
和 5$， 用 方 框 表示 的 是 4 个 终 末 结 (Terminal Nodes)， 分 别 标 有 2, 4, 6 和 7。 终 末 结 因 
为 位 于 决策 树 的 树 末梢 , 像 树 的 叶子 一 样 ,所 以 也 有 人 形象 地 称 它们 为 叶 结 (Leaves Node). 

其 中 ， 根 结 也 可 认为 是 一 个 内 结 ， 或 称 母 结 (Parent Node) ， 每 个 内 结 被 一 分 为 二 ， 
分 成 两 个 子 结 (Daughter Node)， 分 别称 为 左 子 结 与 右 子 结 。 终 末 结 没有 后 代 ， 即 无 子 结 。 
由 于 两 个 子 结 之 一 可 能 为 内 结 , 也 可 能 为 终 末 结 , 所 以 树 的 形状 不 一 定 是 对 称 的 。 比 如 说 ， 
结 2 与 结 3 都 是 结 1 的 子 结 ， 结 2 为 终 末 结 ， 而 结 3 为 内 结 〈 有 结 4 和 结 S 两 个 子 结 )。 

以 上 每 个 母 结 均 只 划分 为 两 个 子 结 ， 根 据 实际 需要 一 个 母 结 也 可 划分 为 多 个 子 结 。 但 
二 项 分 类 方式 构造 树 , 也 可 方便 实现 多 项 分 类 的 划分 效果 , 解释 数据 分 析 的 结果 也 很 方便 ， 
故 二 项 分 类 构造 树 的 方法 更 常用 。 

2. 一 个 假想 例子 

假如 个 个 体 的 目标 变量 〈 即 应 变量 ) 为 y，p 个 协 变量 为 X ， 对 于 第 ;个 个 体 有 

X; = (Xn, Xi) l y; 

其 中 ，i=1,…,n， 协 变量 X 及 目标 变量 y 可 以 是 离散 型 (不 论 有 序 或 无 序 ) 变量 ， 也 
可 以 是 连续 型 变量 。 

为 了 简要 说 明 决 策 树 的 基本 原理 ， 下 面 给 出 一 组 假想 数据 ， 见 表 17-1 
(数据 文件 见 data17-6.xls 或 data17-6.sav)。 这 里 令 y 为 妊娠 分 娩 结 果 ( 即 是 否 早 产 )， 属于 
二 分 类 变量 ， 有 两 个 协 变 量 ， 为 ,x。( p =2 )， 分 别 表 示 饮 酒量 (两 /天 ) 与 年 龄 (X), 
均 为 连续 型 变量 。 试 采用 决策 树 方 法 进行 分 析 。 

以 年 龄 为 模 轴 ， 饮 酒量 为 纵 轴 ， 绘 制 的 早产 与 非 早产 数据 散 点 图 见 图 17-13。 由 图 可 
见 ， 采 用 两 条 直线 分割 直 线 1: 饮酒 量 =1.355， 分 割 直线 2: 年 龄 =26.5)， 可 以 将 早产 数 
E (实心 点 ) 从 非 早 产 数 据 〈 空 心 点 ) 中 分 离 出 来 ， 获 得 3 个 互 不 相交 的 区 域 。 
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图 17-13 “早产 与 非 早产 数据 的 散 点 图 
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聚 类 、 判 别 与 决策 树 分 析 基于 于 


区 域 I， 饮 酒量 x <1.6; 

区 域 H: 饮酒 量 x >1.6， 年 龄 x2 < 26; 

KRII: 饮酒 量 x >1.6， 年 龄 x2 226. 

区 域 1 与 区 域 工 的 妊娠 结局 相同 ， 均 为 非 早产 ; 而 区 域 HI 的 妊娠 结局 为 早产 。 


表 17-1 孕妇 饮酒 量 和 年 龄 与 早产 的 关系 
编号 FROGO — WE (两 /天 ) ”早产 | 编号 FR ( 岁 ) 饮酒 量 (两 /天 ) P 





1 14 1.2 0 22 18 1.4 0 
2 16 0.6 0 23 15 1.7 0 
3 18 0.2 0 24 15 2.5 0 
4 19 0.7 0 25 21 1.5 0 
5 20 0.4 0 26 18 1.9 0 
6 21 1.0 0 27 23 1.8 0 
7 22 0.8 0 28 17 2.9 0 
8 24 0.3 0 29 20 2.6 0 
9 25 0.9 0 30 23 2.9 0 
10 31 0.8 0 31 24 2.1 0 
11 29 0.3 0 32 25 2.5 0 
12 28 0.6 0 33 28 2.1 1 
13 34 1.0 0 34 29 1.6 1 
14 36 0.5 0 35 35 1.7 1 
15 37 1.1 0 36 32 2.6 1 
16 38 0.7 0 37 34 2.3 1 
17 39 0.2 0 38 44 2.1 1 
18 45 0.4 0 39 37 2.7 1 
19 43 1.0 0 40 38 2.3 1 
20 45 0.8 0 41 39 1.6 1 
21 26 1.3 0 42 42 2.8 1 
3， 树 的 生长 
结 的 划分 通常 需要 根据 问题 来 进行 ， 如 饮酒 量 <0.3 吗 ? 饮酒 量 六 <0.4 吗 ? …… 对 


于 表 17-1 资料 ， 一 共 可 提出 24 个 类 似 问 题 (42 个 孕妇 饮酒 量 的 取 值 范围 为 0.2—2.9 两 / 
天 ， 中 间 无 2.0, 2.2, 2.4 三 个 值 ， 实 际 共有 28-3=25 个 可 能 的 值 )， 同 样 ， 对 于 年 龄 可 提出 
26 个 类 似 问 题 〈 年 龄 的 取 值 范围 为 14 一 45 岁 ， 中 间 无 27, 30, 33, 40，41 五 个 值 ， 实 际 共 
有 32—5=27 个 可 能 的 值 )。 根 据 每 个 问题 ， 可 将 观察 个 体 分 配 到 左 、 右 子 结 中 。 

对 于 这 类 连续 型 或 有 序 的 自 变 量 , 可 采用 可 能 的 取 值 个 数 减 1 种 方法 来 将 连续 型 变量 
离散 化 。 所 以 饮酒 量 、 年 龄 两 个 变量 分 别 有 24 和 26 种 截断 划分 方法 。 

如 果 自 变量 为 二 分 类 ， 那 么 划分 很 简单 ， 只 有 1 种 划分 方法 ， 对 于 三 分 类 名 义 变量 ， 
如 色彩 红 、 绿 、 蓝 ， 则 有 3 种 划分 方法 ， 即 红 与 绿 蓝 、 绿 与 红 蓝 、 红 绿 与 蓝 。 
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对 于 四 分 类 名 义 变量 ， 如 血型 A, B, AB,O， 则 有 7 种 划分 方法 〈 见 表 17-2)， 依 此 类 
推 。 


xk 17-2 血型 变量 的 可 能 划分 方法 


左 子 结 右 子 结 
A B, AB, O 
B A, AB, O 
AB A, B, O 
A, B AB, O 
A, AB B, O 
B, AB A, O 
A, B, AB o 


总 之 ， 名 义 变 量 的 划分 比 连续 型 变量 或 有 序 变量 的 划分 要 复杂 些 。 一 般 来 说 ， 任 何 有 
个 水 平 的 名 义 变量 ， 将 有 2*"! -1 种 可 能 划分 方法 。 

当 有 多 个 自 变 量 ， 每 个 白 变 量 又 有 多 种 不 同 的 截断 划分 时 ， 将 母 结 划分 成 两 个 子 结 通 
常 有 许多 可 能 的 划分 方案 ， 究 竟 哪 一 方案 更 好 ， 需 要 有 一 个 标准 对 结 内 的 纯度 做 出 判断 。 

结 纯度 可 采用 结 杂 质 (Node Impurity) 来 衡量 ， 最 简单 的 方法 是 计算 比值 ， 如 

结 内 早产 孕妇 数 
该 结 内 孕妇 总 数 

该 比值 越 接近 于 0 或 1， 表 示 结 内 越 纯 。 对 于 结果 17-14 对 应 的 终 末 结 Nodel, Node3, 
Node4， 该 比值 分 别 为 0/23=0, 0/9—0, 10/10 二 1， 因 此 结 内 纯度 最 高 。 

OD 名 义 分 类 数据 

. 对 于 应 变量 为 二 分 类 或 名 义 分 类 变量 的 数据 ， 常 见 的 树 划分 方法 有 : WE. Pearson 
卡 方 检验 、Gini 指数 法 。 

对 于 每 一 种 可 能 问题 ( 即 划 分 方案 ), 计算 上 述 方法 对 应 的 指标 ( 降 炉 、-ln(P) 、 降 Gini , 
这 里 的 P 为 Pearson 卡 方 检验 获得 的 假设 检验 概率 P 值 )， 选 这 些 指标 较 大 的 方案 为 结 点 
划分 方案 。 

(2) 有 序 分 类 数据 

如 果 应 变量 是 有 序 分 类 变量 ， 则 可 采用 上 述 的 业 法 或 Gini 指数 法 划分 一 个 结 。 

(3) 数值 (区间 ) 数据 

如 果 应 变量 是 连续 型 变量 ， 则 建立 的 决策 树 为 回归 树 ， 常 见 的 回归 树 划分 方法 有 : F 
检验 或 方差 减少 法 ， 它 们 和 卡 方 检验 的 划分 方法 十 分 类 似 。 当 应 变量 观察 值 为 y ， 相 应 均 
数 为 了 时， 方差 的 计算 公式 为 V (y, — y). 

下 面 采用 例 17-6 EIS XA TE. Pearson 卡 方 检验 和 Gini 指数 法 。 

CD WIE 

如 果 用 饮酒 量 为 作为 划分 的 自 变 量 ， 并 考虑 其 截断 点 〈cutoff) Ace, Hx ec? 的 
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问题 ， 得 表 17-3。 


表 17-3” 结 与 应 变量 的 交叉 列表 格式 
条 t 非 早产 m 产 合 d 


左 子 结 ( TL ) Xx <c ni n» Vie 
df (ta) aže ni n2) nx 
B (ç) na no Tee 


ZEE ARR (Entropy Impurity) 计算 公式 为 : 


i(t) e - LI (L) P2, (2) (17-6) 
ny ny ny ne 
REDE, AA ATARA: 
i(tr)= -22 (21 -22 E (17-7) 
no. Ne no. noe 
FARRA: 
i(r) » - Li (l) TQ y (17-8) 
Nes n n °. 
KH FIARA E: 
Al(s,z) 2 i(z) - P{TL}i(tL)- P{Tr}i(R) (17-9) 


BERI AI Cs, T) 是 一 种 划分 优 度 (Goodnesee of Split), 也 叫 信息 增益 (Information Gain), 
反映 了 由 母 结 划 分 成 两 个 子 结 后 的 杂质 降低 程度 。 通常 以 降 炉 值 最 大 者 对 应 的 截断 点 作为 
划分 一 个 结 的 条 件 。 公 式 中 in 为 自然 对 数 符号 ， 其 底 为 e=2.71828， 实 际 上 也 可 采用 其 他 
对 数 ， 如 以 10 或 2 为 底 的 对 数 ， 此 时 尽管 获得 的 灶 杂 质 值 不 同 ， 但 结论 是 一 致 的 。 

ARF T A TA Tr 的 概率 , RT ATA me / Qn. + n2.) = m. /n.. Tl no. fm, + n3.) = no, [Neo 
计算 。 如 果 目 标 变量 〈 即 应 变量 ) 为 多 分 类 ， 那 么 可 在 公式 〈17-6) 至 公式 (17-9) 后 增 
加 相应 的 类 别 项 ， 再 做 计算 。 如 对 于 公式 (17-6)， 如 果 有 i 类 ， 每 类 的 比率 为 pi, W 

iGL)=—> piln pi 


下 面 采 用 表 17-1 数据 ,详细 说 明 以 上 公式 的 应 用 方法 。 如果 令 c=1.6 为 饮酒 量 的 截断 
值 ， 其 分 类 结果 见 表 17-4. 


表 17-4” 结 与 应 变量 的 交叉 列表 
条 F dp 早产 f P 合 d 





AT t) X «16 23 0 23 
AR) x 216 9 10 19 
母 结 (r ) 32 10 42 


那么 ， 根 据 公 式 (17-6) 有 
i(t) = —(23/23)1n(23/23) — (0/23)1n(0/23) =0 
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其 中 ，omn0=0。 

根据 公式 〈17-7) 有 

i(Tr) = —(9/19)1n(9/19) — (10/19)1n(10/19) = 0.69176 
根据 公式 17-8) 有 
i(T) = —(32/42)1n(32/42) — (10/42)1n(10/42) = 0.54887 
根据 公式 〈17-9) ARRA 
Al (s,1) — 0.54887 — (23/42)x0~ (9/42)x0.69176 = 0.2359 

饮酒 量 的 取 值 范围 为 0.2~2.9 两 /天 ，25 个 可 能 的 值 ， 有 24 种 可 能 的 截断 划分 方法 ， 

其 所 有 划分 优 度 值 如 表 17-5 所 示 。 


3417-5 可 能 的 饮酒 量 划分 优 度 








杂质 lži] 
编 5 划分 值 (s) 

左 子 结 右 子 结 母 结 Al(s,T) 

1 0.3 0.00000 0.56234 0.54887 0.01332 
2 0.4 0.00000 0.57633 0.54887 0.02743 
3 0.5 0.00000 0.59084 0.54887 0.04244 
4 0.6 0.00000 0.59827 0.54887 0.05032 
5 0.7 0.00000 0.61341 0.54887 0.06691 
6 0.8 0.00000 0.62880 0.54887 0.08476 
7 0.9 0.00000 0.65176 0.54887 0.11437 
8 1 0.00000 0.65915 0.54887 0.12513 
9 1.1 0.00000 0.67919 0.54887 0.16076 
10 1.2 0.00000 0.68462 0.54887 0.17397 
11 ` 13 0.00000 0.68901 0.54887 0.18796 
12 14 0.00000 0.69201 0.54887 0.20287 
13 1.5 0.00000 0.69315 0.54887 0.2188 
14 1.6 0.00000 0.69176 0.54887 0.23593 
15 1.7 0.27877 0.69142 0.54887 0.10308 
16 1.8 0.34883 0.69092 0.54887 0.07787 
17 1.9 0.34050 0.69315 0.54887 0.09083 
18 2.1 0.33259 0.69019 0.54887 0.1056 
19 2.3 0.43340 0.69315 0.54887 0.05363 
20 2.5 0.50845 0.66156 0.54887 0.01126 
21 2.6 0.49260 0.69315 0.54887 0.02762 
22 2.7 0.51465 0.69315 0.54887 0.01722 
23 2.8 0.54020 0.63651 0.54887 0.00179 
24 2.9 0.56234 0.00000 0.54887 0.01332 


———MÓ———— MM ——— À——— 
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K 17-5 中 的 第 2 列 “ 划 分 值 ” 实 际 上 是 截断 划分 的 条 件 ， 如 编号 14 的 问题 是 “饮酒 
E xi<1.6? ” 条 件 满足 则 划 归 到 左 子 结 ， 和 否则 划 归 到 右 子 结 ， 由 此 得 到 表 17-4( 也 见 表 
17-6) 的 频数 表 数 据 ， 其 他 依 此 类 推 。 

从 表 17-5 可 见 ， 划 分 条 件 为 “饮酒 量 x1<1.6? ”时 ， 获 得 的 划分 优 度 最 大 ， 降 炳 
=0.23593。 

以 相同 方法 可 获得 年 龄 划分 条 件 “ 年 龄 x-28? ”的 划分 优 度 值 最 大 ， 降 燃 =0.20287。 
因为 这 个 值 小 于 饮酒 量 对 应 的 最 大 划分 优 度 值 0.23593， 因 此 ， 从 根 结 划分 出 两 个 子 结 ， 
先 选 择 “ 饮 酒量 ”这 一 自 变量 ， 而 不 是 选择 “年 龄 ”。 并 且 是 在 截断 条 件 为 “饮酒 量 x1<1.6 
两 /天 ”处 划分 。 

(2) Pearson 卡 方 检验 

在 SPSS 中 ， 决 策 树 分 析 的 卡 方 检验 既 可 以 选择 Pearson 卡 方 检验 ， 也 可 以 选择 似 然 
比 卡 方 检 验 。Pearson 卡 方 检验 公式 见 本 书 第 6 章 的 公式 〈6-1)， 由 该 公式 获得 表 17-4 的 
X “=15.8882 ， 相 应 P-6.71979-E05, P [Hike], WiBHXIAP BU DLEDGBCA. A T RUE AS IO E 
释 一 致 ， 即 值 越 大 效果 越 好 ， 将 P 值 进 行 负 对 数 变换 为 “一 In(P)”， 表 17-4 的 
—In(P)=9.60787. 

(3) Gini 指数 法 

和 公式 (17-6) 至 公式 (17-9) 类 似 ， 左 子 结 Gini 指数 为 


2 2 
eco [8 EE (17-10) 
hle fije. 
按 同 样 方法 ， 可 以 计算 右 子 结 Gini 指数 为 
2 2 
Ge) ei [A] ES (17-1D 
Hn». H2. 
母 结 Gini 指数 为 
2 2 
eei [时 | R9 (17-12) 
Hee Hee 
然后 采用 下 列 公式 计算 降 Gini: 
AGini = G(r) - P{1t1}G(t1)- Plra1GGza) (17-13) 


如 果 Gini 指数 为 0， 表 示 结 是 “ 纯 ” 的 ;二 值 结 点 0，1 各 占 50% 时 ，Gini 指数 为 0.5; 
当 分 类 类 别 不 断 增 大 时 ，Gini 指数 可 接近 于 1。 AGini 值 越 大 划分 效果 越 好 。. 

如 果 目 标 变量 〈 即 应 变量 ) 为 多 分 类 ， 那 么 可 在 公式 (17-10〉 至 公式 (17-13) 后 增 
加 相应 类 别 的 项 ， 再 做 计算 。 如 对 于 公式 (17-10);， 如 果 有 i 类， 每 类 的 比率 为 P, , WU 


GG)=1- Y, p? 


对 于 表 17-4 资料 ， 根 据 公 式 〈17-10) 有 
G(1,) -1- (23/23) — (0/23)2 =0 
根据 公式 (17-11) 有 
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G(tg) =1— (9/19)? — (10/19)? = 0.49861 
根据 公式 (17-12) 有 
G(T) =1— G2/42)2 — 00/42)? = 0.36281 


根据 公式 〈17-13) 有 
AGini = 0.36281— (23/42)x0 — (19/42) x 0.49861 = 0.13725 
in REGERE, MRAR Gini 指数 法 划分 一 个 结 。 
由 自 变量 饮酒 量 的 24 种 划分 值 , KARE. Pearson 卡 方 检验 、Gini 指数 法 进行 归 类 ， 
FRPR, nP) EE Gini 指数 如 表 17-6 所 示 。 


表 17-6 饮酒 量 的 几 种 划分 方法 比较 





编号 RAJE ” 左 结 非 ” 右 结 非 HAR fg KER -InP) fÆ Gini 
1 0.3 2 30 10 0 0.01332 0.87254 0.00567 
2 0.4 4 28 10 0 0.02743 1.42782 0.01193 
3 0.5 6 26 10 0 0.04244 1.97231 — 0.0189 
4 0.6 7 25 10 0 0.05032 2.25196 — 0.02268 
5 0.7 9 23 10 0 0.06691 2.83881 . 0.03092 
6 0.8 11 21 10 0 0.08476 347627 — 0.04023 
7 0.9 14 18 10 0 0.11437 — 4.56451 0.05669 
8 1.0 15 17 10 0 0.12513 4.97225 0.06299 
9 1.1 18 14 10 0 0.16076 — 6.37472 0.08503 
10 1.2 19 13 10 0 0.17397 — 6.91576 — 0.09366 
H 1.3 20 12 10 0 0.18796 — 7.50227 0.10307 
12 L4 21 11 10 0 0.20287 8.14088 0.11338 
13 1.5 22 10 10 0 0.2188 8.83955 0.12472 
14 1.6 23 9 10 0 0.23593 9.60787 0.13725 
15 1.7 23 9 8 2 0.10308 — 5.64586 — 0.07351 
16 1.8 24 8 7 3 0.07787 | 4.65292 0.05805 
17 1.9 25 7 7 3 0.09083 — 5.33214 0.06859 
18 2.1 26 6 7 3 0.1056 — 6.11327 0.08089 
19 23 27 5 5 5 0.05363 3.65363 0.04287 
20 2.5 27 5 3 7 0.01126 1.16389 0.00882 
21 2.6 29 3 3 7 0.02762 2.26574 0.02286 
22 2.7 30 2 2 8 0.01722 1.62949 0.01444 
23 2.8 30 2 1 9 0.00179 0.37434 0.00140 
24 2.9 30 2 0 10 0.01332 0.87254 0.00567 





注 ， 表 中 “ 非 ”表示 非 早产 :“ 早 ”表示 早产 。 
4. 树 的 修剪 
从 根 结 生长 出 子 结 , 再 由 子 结 划分 出 次 子 结 , 如 此 向 下 迭代 划分 , 可 继续 直至 树 饱 和 ， 
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此 时 子 结 不 可 能 再 进一步 分 离 ， 要 么 结 内 已 “ 纯 ”( 如 例 17-6)， 要 么 结 内 仅 有 一 个 观察 个 
Ik. 不 可 能 或 不 将 被 继续 划分 的 结 就 是 终 末 结 。 终 末 结 太 小 不 便于 做 出 合理 的 统计 学 推断 ， 
实际 解释 时 也 没有 足够 的 说 服 力 , 因此 饱和 树 通 常 太 大 而 不 可 用 。 处 理 这 种 情况 有 两 种 办 法 。 

CD 在 生长 树 之 前 事先 定义 一 个 结 的 最 小 例 数 ， 如 总 样本 量 的 1%, 或 简单 规定 最 小 例 数 
为 5S〈 假 定 例 数 小 于 5 时 结果 无 意义 )， 当 结 的 样本 含量 小 于 这 一 最 小 值 时 即 停 止 继续 划分 。 

迭代 划分 的 早期 发 展 阶段 ， 由 Morgan 和 Sonquist (1963 年 ) 提出 的 自动 交互 探测 
(Automatic Interaction Detection， 简 称 AID) 法 ， 获 得 终 末 结 就 是 采用 这 种 方法 。 

(2) 首先 生长 出 一 棵 饱和 的 最 大 树 ， 然 后 再 对 这 棵 大 树 进行 修剪 。 

Breiman 等 (1984 F) 认为 ， 规 定 一 个 阐 值 来 停止 树 的 结 点 划分 ， 有 过 早 或 过 晚 的 可 
能 性 。 因 此 ， 他 们 主张 首先 产生 一 棵 饱和 的 大 树 ， 然 后 再 对 树 进行 修剪 (pruning〉 (SPSS 
的 CRT 及 QUEST 算法 有 此 功能 )。 不 是 试图 中 途 停止 划分 ， 而 是 让 划分 继续 直至 饱和 或 
接近 饱和 ， 产 生 一 棵 大 树 ， 然 后 从 末端 开始 对 这 棵 大 树 进 行 修剪 ， 寻 找 饱 和 树 的 一 棵 子 树 
Csubtree)， 该 子 树 应 该 对 结局 做 出 最 佳 预测 ， 且 受 资 料 的 噪声 影响 最 少 (Zhang et al, 
1999;1996 )。 

修剪 树 有 多 种 方案 ， 利 用 这 些 方案 产生 多 棵 子 树 ， 比 较 每 棵 子 树 的 质量 ， 从 中 选择 一 
棵 “最 佳 ” 子 树 。 无 论 构建 树 的 目的 是 分 类 还 是 预测 ， 树 的 质量 均 只 取决 于 终 末 结 ， 内 结 
对 树 的 质量 评价 只 起 中 介 作 用 。 树 的 质量 可 由 树 的 错误 分 类 代价 来 表述 。 

5. 交互 印证 

建立 决策 树 往往 需要 较 大 的 样本 含量 ， 但 实际 工作 中 常常 由 于 各 种 原因 样本 量 相 对 不 
足 ， 这 就 需要 考虑 样本 的 再 利用 问题 。 

交互 印证 〈Cross-Validation) 就 是 有 效 地 充分 利用 较 少 样本 的 一 种 方法 。 通 常 的 做 法 
是 : 将 整个 训练 样本 数据 随机 分 成 10 个 大 小 相同 的 子 样本 ， 使 每 个 子 样本 的 各 种 属性 大 
体 相似 。 运用 其 中 9 个子 样本 来 产生 饱和 的 大 树 , 采用 树 修剪 方法 ,获得 一 系列 新 的 子 树 ; 
然后 以 剩 下 的 一 个 子 样本 计算 每 棵 子 树 的 “错误 分 类 代价 ”。 这 样 重复 做 10 次 ， 选 择 具有 
最 小 或 接近 最 小 的 “错误 分 类 代价 ”的 子 树 。 一 旦 选择 了 子 树 ， 修 剪 过程 也 即 完成 。 

6， 模 型 的 准确 度 评价 

数据 挖 据 中 需要 对 模型 做 出 评价 ， 这 些 评 价 指 标的 计算 与 医学 诊断 试验 评价 相似 C 
AGBS 12 章 )。 

如 果真 阳性 (True Positive, TP) 表示 阳性 被 正确 划 归 为 阳性 ; 真 阴 性 (True Negative, 
TN) 表示 阴性 被 正确 划 归 为 阴性 ， 假 阳性 (False Positive, FP) 表示 阴性 被 错误 划 妇 为 阳 
PE; 假 阴 性 (False Negative; FN) 表示 阳性 被 错误 划 归 为 阴性 。 那 么 ， 准 确 度 (Accuracy) 
可 表示 为 : 

准确 度 - 真 阳性 + 真 阴 性 
真 阳性 + 真 阴 性 + 假 阳 性 + 假 阴 性 

比 准确 度 应 用 更 广 的 指标 是 灵敏 度 与 特异 度 。 灵 人 敏 度 表 示 所 有 实际 阳性 者 被 划 归 为 阳 

性 的 比例 ， 特 异 度 表示 所 有 实际 阴性 者 被 划 归 为 阴性 的 比例 。 
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灵敏 度 、 特 异 度 、 准 确 度 、 精 密度 的 值 越 高 ， 模 型 越 好 。 数 据 挖掘 中 使 用 的 精密 度 实 
际 上 就 是 阳性 预测 价值 。 

ROC 分 析 是 评价 模型 准确 度 的 一 种 更 好 方法 , 这 是 以 灵敏 度 为 纵 轴 ，(1 一 特异 度 ) 为 
横 轴 做 出 的 诊断 曲线 。ROC 曲线 下 面积 越 大 ， 模 型 准确 度 越 高 〈 见 本 书 第 12 章 )。 


17.4.2 SPSS 13.0 中 的 决策 树 


SPSS 13.0 版 本 新 添加 了 分 类 树 (Classification Tree) 过 程 ， 该 过 程 可 创建 基于 树 的 分 
类 模型 。 通 过 自 变 量 〈 预 测 因子 ) 的 值 ， 既 可 以 将 个 体 分 成 若干 个 组 ， 也 可 以 对 应 变量 做 
出 预测 。 

SPSS 提供 了 4 种 算法 ， 即 CHAID，Exhaustive CHAID，CRT，QUEST， 其 具体 功能 
如 下 。 

CD 卡 方 自动 交互 探测 (Chi-Squared Automatic Interaction Detection，CHAID )， 选 择 
对 应 变量 有 强烈 交互 作用 的 自 变量 ， 如 果 自 变量 内 部 各 类 别 对 应 变量 的 作用 没有 统计 学 意 
义 ， 那 么 将 被 合并 成 一 类 。 

(2) 完全 CHAID (Exhaustive CHAID)， 这 是 CHAID 的 修订 方法 ， 该 方法 检查 每 一 
自 变 量 的 所 有 可 能 分 类 。 

(3) 分 类 与 回归 树 (Classification and Regression Trees，CRT)， 分 类 与 回归 树 将 数据 
分 成 若干 个 部 分 ， 对 应 变量 作用 相近 的 归 在 一 起 。 在 终 末 结 〈(Terminal Node) 内 ， 所 有 个 
体 对 于 应 变量 有 相同 的 值 ， 因 此 终 末 结 也 称 为 纯 结 (Pure Node). 

(4) 快速 /无 偏 /有 效 统计 树 (Quick, Unbiased, Efficient Statistical Tree, QUEST)， 该 方 
法 较 快 速 ， 可 以 避免 其 他 方法 的 偏 性 ， 尤 其 适用 于 自 变 量 分 类 类 别 数 较 多 的 情况 。 只 有 当 
应 变量 为 名 义 变量 时 ， 才 选用 QUEST 方法 。 


SPSS 儿 种 算法 比较 见 表 17-7。 
317-7 SPSS 几 种 算法 比较 
算 法 
功 能 CHAID' CRT QUEST 

基于 卡 方 ” 4 
BER) 哑 变 量化 4 4 
HEBY 4 Ei 
多 分 类 结 点 划分 4 
二 分 类 结 点 划分 M 4 
影响 变量 4 4 
先 验 概率 4 4 
错误 分 类 的 代价 4 4 4 
快速 计算 4 4 
“表示 也 包括 完全 CHAID; 


“表示 QUEST 对 于 名 义 自 变量 也 采用 卡 方 值 。 
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17.4.3 ”操作 提示 


打开 数据 文件 data17-6.sav, 在 菜单 中 单 击 Analyze 一 Classify 一 Tree..., 弹出 如 图 17-14 
所 示 的 分 类 树 对 话 框 

将 “早产 ” 选 入 应 变量 框 ， 年 龄 和 饮酒 量 选 入 自 变量 框 ， 如 图 17-14 所 示 。 如 果 想 迫 
使 在 自 变量 框 中 列 出 的 第 一 个 变量 进入 模型 作为 第 一 个 分 类 变量 ， 则 需 选取 “Force first 


variable”. 








17-14 “分 类 树 对 话 框 


在 Influence Variable 框 中 选 入 一 个 影响 变量 (Influence Variable)， 这 一 变量 说 明了 在 
树 生 长 过 程 中 个 体 的 影响 程度 大 小 。 有 较 低 影响 值 的 个 体 ， 其 影响 较 小 ， 有 较 大 影响 值 的 
个 体 ， 其 影响 较 大 。 

在 生长 方法 (Growing Method) 下拉 列表 中 ， 依 次 有 CHAID，Exhaustive CHAID, 
CRT，QUEST4 个 选择 ， 默 认为 CHAID。 

图 17-14 中 的 最 下 一 排 有 Output..., Validation..., Criteria..., Save...#ll Options...5 个 
按钮 。 

° Onutput... 按 钮 : 对 输出 图 形 〈 树 方向 、 结 点 内 容 、 度 量 单位 )、 统 计量 〈 模 型 小 结 、 

模型 、 分 类 表 )、 分 类 规则 (产生 分 类 的 规则 〉 等 输出 结果 进行 适当 取舍 。 
° Validation... 按 钮 : 对 交互 印证 功能 进行 定义 。 
* Criteria.. FXE: 对 决策 树 结 点 输出 进行 适当 的 控制 〈 见 图 17-15). 


Growing Limits ( 生长 限制 ) 一 给 定 最 大 树 的 深度 〔( 比 刀 3 级 )， 以 及 母 结 、 子 结 


的 最 小 个 体 数 
“CHAID 全 划分 或 合并 分 类 类 别 的 检验 水 准 ,， 规 定 卡 方 检 验 是 
KA Pearson 卡 方 (上 默认) 还 是 采用 似 然 比 卡 方 
Intervals 号 区 间 ， 给 连续 型 定量 变量 规定 分 类 尺度 
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Growth Limits 3 | Pruning | Surrogates | 


Maximum Tree Depth 一 一 一 一 一 一 一 一 


| 全 如 Eestid 


p Minimum Number of Cases 一 一 一 


| | Parent Node: [10 


The maximum number of levels 
is 3 for CHAID; 5 for CRT and 
QUEST 


| Chika Tode: Ë 
G Caston | 


Value: P | 





图 17-15 设 定 分 类 的 规则 


° Options... 按 钮 : 只 有 CRT 和 QUEST 两 种 算法 有 效 ， 主 要 用 于 定义 先 验 概率 。 
e Saves... 按 钮 : 保存 终 末 结 点 编号 、 预 测 值 及 预测 概率 等 。 


17.4.4 结果 解释 


在 图 17-14 的 基础 上 ，Growing Method 选择 CRT《〈 分 类 与 回归 树 )， 并 单 击 Output.… 
按钮 ， 树 (tree) 的 显示 方向 (Orientation) 选择 Left to right， 结 内 容 (Node Contents) 选 
ff Table and Charts; 在 Statistics 界面 选择 Summary 和 Risk; 在 Rules 界面 选择 Generate 
Claddification Rules; 在 Validation 界面 选择 Crossvalidation，Number of Sample Folds 默认 
为 10。 

为 了 防止 例 数 少 不 出 现 树 图 ， 单 击 Criteria... 按 钮 ， 在 此 对 话 框 中 将 Growth Limits 界 
面 中 的 树 最 大 深度 自 定义 (Custom) 为 Value23; 树 最 小 个 体 数 母 结 =10， 子 结 =5， 单 击 
Continue 按钮 〈 见 图 17-15)。 最 后 单 击 OK 按钮 获得 结果 17-13。 


Model Summary 


Growing Method 
Dependent Variable 
Independent Variables 
Validation 

Maximum Tree Depth 
Minimum Cases in 
Parent Node 

Minimum Cases in 
Child Node 
Independent Variables 
Included 

Number of Nodes 
Number of Terminal 
Nodes 

Depth 


Specifications 


饮酒 量 〈 两 /天 ) ,年 龄 〈 岁 ) 
CROSSVALIDATION 


Results 


饮酒 量 〈 两 /天 ) ,年 龄 ( 岁 ) 





结果 17-13 ”模型 小 结 
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由 此 结果 可 见 ， 我 们 选用 的 生长 方法 为 CRT (分 类 与 回归 树 )， 应 变量 为 早产 ， 自 变 
量 为 饮酒 量 、 年 龄 ， 印 证 方法 选择 了 交互 印证 ， 最 大 树 深 为 3 层 ， 母 结 最 小 个 体 数 为 10, 
子 结 最 小 个 体 数 为 5。 结果 共有 5 个 结 ， 终 末 结 有 3 个 ， 数 深 实际 为 2。 

结果 17-14 为 系统 分 类 树 结 构图 ， 深 色 直 条 为 非 早 产 〈 数 字 为 0.0)， 浅 色 直 条 为 早产 
(数字 为 1.0) ， 共 有 5 个 结 ， 编 号 分 别 为 Node 0, Node 1, Node 2, Node 3, Node 4; Node 0 
为 根 结 ，Node 0, Node 2 为 母 结 ， 图 下 方 有 “日 ”标志 ; Node 1, Node 3, Node 4 为 终 末 结 ， 
本 例 的 终 末 结 已 100% 归 类 ， 即 为 “ 纯 ” 结 (无 杂质 )。 


KS GU 
Improvement=0.137 


== 





结果 17-14 ”系统 树 结构 


根 结 中 非 早 产 占 76.2%， 共 计 32 例 ; 早产 占 23.8%， 共 计 10 例 ; 通过 饮酒 量 进行 分 
类 ,饮酒 量 x 21.6 WJA Node 1, 饮 酒量 x <1.6 则 归 类 为 Node 2, Node 1 已 经 变 为 “ 纯 ” 
结 ， 无 需 继续 分 类 ; 而 Node 2 中 非 早产 与 早产 各 占 47.4% 和 52.6%， 不 “ 纯 ”， 需 要 继续 
划分 。 Un RAE RS xo > 26 则 归 类 为 Node 3, EE x; < 26 则 归 类 为 Node4, 这 两 个 结 均 为 “ 纯 ” 
结 ， 无 需 继续 归 类 。 

由 结果 17-15 得 知 ,交互 印证 后 得 知 模型 风险 为 0 (因为 这 个 假想 例子 是 100% 正 确 分 
配 )。 


Risk 


Estimate 
Resubstitution .000 .000 
Cross-Validation ,000 .000 

Growing Method: CRT 

Dependent Variable: 早产 


结果 17-15 ”交互 印证 






结果 17-16 显示 了 实际 与 预测 结果 的 交叉 分 类 表 ， 最 后 一 列 提示 实际 为 非 早 产 的 32 
例 100% 被 归 类 到 非 早 产 组 ， 实 际 为 早产 的 10 例 100% 被 归 类 到 早产 组 。 
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EL 


Classification 


Predicted 
Percent 
Observed 1 Correct 
0 


32 0 100.096 
0 10 100.0% 
76.2% 23.8% 100.0% 






















1 
Overall Percentage 


Growing Method: CRT 
Dependent Variable: 早产 


结果 17-16 ” 树 模型 的 分 类 表 
结果 17-17 总 结 了 每 一 个 终 末 结 的 分 类 规则 。 


/* Node 1 */ 
DO IF (((VALUE( 饮 酒量 〈 两 天 ) ) LE 1.55) OR SYSMIS( 饮 酒量 〈 两 天 ) ) AND 
(SYSMIS( 年 龄 C£) ) OR (VALUE( 年 龄 〈 岁 ) ) GT 15.5). 

COMPUTE nod_001 = 1. 

COMPUTE pre 001 = 0. 

COMPUTE prb. 001 = 1.000000. 

END IF. 

EXECUTE. 








/* Node 3 */ 

DO IF (VALUE( 饮 酒量 〈 两 天 ) ) GT 1.55) OR SYSMIS( 饮 酒量 〈 两 天 ) ) AND 
(VALUE( 年 龄 (22) ) LE 15.3)) AND (((VALUE( 年 龄 〈 岁 ) ) LE 26.5) OR 
SYSMIS( 年 龄 ( 岁 ) ) AND (VALUE( 饮 酒量 〈 两 天 ) ) GT 2.4))). 

COMPUTE nod 001 =3. . 


COMPUTE pre 001 = 0. 
COMPUTE prb 001 = 1.000000. 
ENDIF. 

EXECUTE. 


/* Node 4 */ 

DO IF (((VALUE( 饮 酒量 〈 两 天 ) ) GT 1.55) OR SYSMIS( 饮 酒量 (两 天 ) ) AND 
(VALUE( 年 龄 ( 岁 ) )LE15.5)) AND 《(〈((VALUE( 年 龄 C9) ) GT 26.5) OR 
SYSMIS( 年 龄 ( 岁 ) ) AND (SYSMIS( 饮 酒量 〈 两 天 ) ) OR (VALUE( 饮 酒量 (两 天 ) )LE 
2.4)))). 

COMPUTE nod_001 = 4. 

COMPUTE pre 001 = 1. 

COMPUTE prb_001 = 1.000000. 

END HF. 

EXECUTE. 





结果 17-17 分 类 规则 
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18.1 主 成 分 分 析 


18.1.1 概述 


医学 科学 研究 经 常 遇 到 多 个 指标 的 实际 问题 ， 例 如 ， 评 价 儿 童生 长 发 育 的 指标 有 10 多 
个 ， 涉 及 乙肝 诊断 和 疗效 的 指标 有 20 多 个 ,涉及 心肌 梗死 诊断 的 指标 有 20 多 个 ， 在 流行 病 
学 调查 研究 中 , 考虑 的 影响 因素 和 观察 指标 则 更 多 。 虽 然 含 有 多 个 指标 的 数据 可 以 提供 丰富 
的 信息 ， 但 同时 增加 了 分 析 问 题 的 复杂 性 和 难度 ， 而 且 事实 上 ,不同 指标 之 间 往 往 存在 一 定 
的 相关 性 。 那 么 ， 能 和 否 有 一 种 合理 的 方法 ， 即 用 较 少 的 几 个 相互 独立 的 指标 来 代替 原来 的 多 
个 指标 ， 使 其 既 减 少 了 指标 的 个 数 ， 又 能 综合 反映 原 指标 的 信息 ? 回答 是 肯定 的 ， 主 成 分 
分 析 (Principal Component Analysis) 就 是 用 于 解决 此 类 问题 的 一 种 处 理 方 法 。 

主 成 分 分 析 的 基本 思想 是 通过 降 维 过 程 ， 将 多 个 相互 关联 的 数值 指标 转化 为 少数 
几 个 互 不 相关 的 综合 指标 的 统计 方法 ， 即 用 较 少 的 指标 来 代替 和 综合 反映 原来 较 多 的 
信息 ， 这 些 综合 后 的 指标 就 是 原来 多 指标 的 主要 成 分 。 

为 了 更 清楚 地 理解 主 成 分 分 析 的 基本 思想 ， 这 里 我 们 举 一 个 最 简单 的 研究 儿童 年 龄 与 
身高 的 例子 。 假 设 在 m=2 时 ， 原 有 指标 为 xt FR Mao (身高 )， 将 n 对 (x1,x2) 在 二 
维 平面 坐标 系 上 做 散 点 图 〈 见 图 18-1)， 可 见 ，xi 和 xs 之 间 呈 线性 正 相 关 ， 由 线性 回归 方 
法 ， 可 求 得 xi 与 x 的 线性 回归 方程 。 若 将 该 直线 作为 新 坐标 系 的 横 轴 z1|， 取 一 条 和 zi 轴 
垂直 的 直线 作为 新 坐标 系 的 纵 轴 zz， 则 在 新 坐标 系 中 ， 此 个 点 的 分 布 显然 不 再 呈 线 性 相 
关 ， 即 zi 和 zs 这 两 个 新 变量 是 相互 独立 的 ， 且 它们 的 变异 主要 集中 在 ¿u yI) E, HQ z 
向 上 的 变异 较 小 ， 说 明 变量 zi 的 方差 较 大 ，z 的 方差 较 小 ， 此 时 若 忽略 不 计 z 的 变异 ， 则 
研究 该 n 个 儿童 的 年 龄 与 身高 ， 就 只 需 考虑 zi 这 一 个 变量 了 ， 因 为 它 能 反映 原始 指标 x, 
和 x, 所 含有 的 主要 信息 。 通 常 地 ， 我 们 称 zi 为 xí 和 x; 的 第 一 主 成 分 (First Principal 
Component), z2: X x, M xs 的 第 二 主 成 分 (Second Principal Component)， 可 见 ， 主 成 分 不 


与 统计 分 


再 是 原来 某 一 指标 的 反映 ， 它 是 原 有 指标 的 综合 反映 。 


X2 


z2 





图 18-1 nn 对 数据 分 布 及 坐标 转换 
根据 数学 知识 可 得 ， Zl^ z J xy x2 有 下 列 关系 式 : 


z = bm + bi2x2 
z2 = bax + bx) 
即 新 指标 £l 2 是 原 指标 Xis x; 的 线性 函数 ; zo 轴 与 zi HEH, Hz. z 不 相关 ; zi 为 第 
一 主 成 分 ，2 为 第 二 主 成 分 。 根 据 第 8 章 内 容 ， 可 求 出 bu. bp. ba. by, XE, RET 
bis bi, ba. bx, WEKRE zí 和 zz。 
类 似 地 ， 对 N 个 对 象 观察 m 个 指标 ， 可 以 得 到 N, 个 数据 ， 见 表 18-1. 


表 18-1 NN 个 观察 对 象 测量 数据 





= m 个 指标 之 间 存 在 相关 关系 时 , 可 以 通过 线性 变换 方法 找到 一 组 新 指标 zu 22, .….,zh 
且 它 们 满足 下 列 条 件 : 

。 各 zi 是 原 指标 的 线性 函数 ， 且 它们 相互 垂直 ; 

° 各 zi 之 间 相 互 独立 ; 

e 这些 z 提 供 原 指标 所 含有 的 全 部 信息 ， 且 zi 提供 的 信息 量 最 多 ，z WZ, =o a 

少 。z; 为 原 指标 xi, xo, .xm 的 第 i 主 成 分 (i=1, 2, .…, m). 

理论 上 ， 表 18-1 中 数据 的 最 多 主 成 分 个 数 可 有 m 个 ， 该 m 个 主 成 分 反映 了 原 有 指标 
的 所 有 信息 ， 但 主 成 分 分 析 的 主要 目的 是 用 较 少 的 综合 指标 〈 主 成 分 ) 来 反映 原 有 指标 的 
较 多 信息 。 例 如 ， 若 有, zz2,…, zx (kam) 的 累积 贡献 率 已 达到 85% 以 上 ， 则 说 明 前 大 个 主 
成 分 已 能 反映 原 有 指标 的 较 多 信息 。 通常 地 , 实际 所 确定 的 主 成 分 个 数 少 于 原 有 指标 个 数 。 

主 成 分 分 析 的 任务 之 一 是 计算 主 成 分 ， 计 算 步骤 是 : 首先 将 原 有 指标 标准 化 ， 然 后 计 
算 各 指标 之 间 的 相关 和 矩阵、 该 矩阵 的 特征 根 和 特征 向 量 ， 最 后 将 特征 根 由 大 到 小 排列 ， 分 
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别 计算 出 其 对 应 的 主 成 分 。 

通常 ， 并 不 是 所 有 的 主 成 分 都 需要 ， 而 是 只 用 前 面 几 个 ， 则 主 成 分 分 析 的 另 一 任务 是 
确定 主 成 分 个 数 ， 确 定 方法 有 两 种 : 

CD 视 累积 贡献 率 ， 当 前 个 主 成 分 的 累积 贡献 率 达 到 某 一 特定 值 ( 一 般 采 用 70% 以 
上 ) 时 ， 则 保留 前 天 个 主 成 分 。 

(2) 视 特征 根 ， 一 般 选取 特征 根 之 1 的 主 成 分 。 

在 这 两 种 方法 中 ， 前 者 取 的 主 成 分 个 数 较 多 ， 后 者 取 的 较 少 ， 一 般 情 况 下 是 将 这 两 种 
方法 结合 使 用 。 
18.1.2 ”实例 与 操作 

1. 用 主 成 分 分 析 法 减少 变量 个 数 

某 研究 单位 测 得 20 名 肝病 患者 的 4 项 肝 功 能 指标 见 表 18-2( 见 配 书 光 


盘 中 的 数据 文件 datal8-1.xls 或 datal18-1.sav ): 转氨酶 (x17、 肝 大 指数 (22)、 硫 酸 锌 浊 度 
(x3)、 甲 胎 球 蛋白 (xz4)， 试 做 主 成 分 分 析 。 


表 18-2 20 名 肝病 患者 的 4 项 肝 功 能 指标 





序 号 x1 x2 x3 x4 
I 40 2.0 5 20 
2 10 1.5 5 30 
3 120 3.0 13 50 
4 250 4.5 18 0 
5 120 3.5 9 50 
6 10 1.5 12 50 
7 40 1.0 19 40 
8 270 4.0 13 60 
9 280 3.5 11 60 
1 170 3.0 9 60 
11 180 3.5 14 40 
12 130 20 30 50 
13 220 1.5 17 20 
14 160 1.5 35 60 
15 220 2.5 14 30 
16 140 2.0 20 20 
17 220 2.0 14 10 
18 40 1.0 10 0 
19 20 1.0 12 60 
20 120 2.0 20 0 


[SPSS ÉE ea 0 0 


COD 主 成 分 分 析 过 程 的 操作 提示 
a 操作 提示 ( 见 图 18-2 和 图 18-3) 


Analyze = # 3 345 E33 Analyze 

“Data Reduction ' =ikjË Data Reduction 项 

“Factor ... e i4 Factor ... 项 

-xl~ x4 P] Variables SREE x1 32.33 3438 5 32 “Variables” 
O FABER | 














图 18-2 主 成 分 分 析 菜 单 图 18-3” 主 成 分 分 析 对 话 框 


a 操作 提示 ( 见 图 18-4 ) 


-Descriptives 一 在 图 18-3 中 单 击 Descriptives 按钮 

Factor Analysis... 一 弹出 Factor Analysis: Descriptives 对 话 框 
Univariate descriptives 一 选择 Statistics 中 的 “通用 统计 描述 量 ” 

Initial solution 号 选择 Statistics 中 的 “初始 解 ” 

Coefficients 全 选择 Correlation Matrix 中 的 “相关 系数 ” 
-Significance levels 一 选择 Correlation Matrix 中 的 “显著 性 检验 尸 值 ” 
Continue =i, wf 18-3 5 


v Initial solution 


Correlation Matrix 


iv Coefficients l Inverse 

iv Significance levels f Reproduced 
F Determinant M Antiimage 
l KMO and Bartlett's test of sphericity 





图 18-4 Factor Analysis: Descriptives 对 话 框 
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a 操作 提示 ( 见 图 18-5 ) 


"BExtraction 号 在 图 18-3 中 单 击 Extraction 按钮 

Factor Analysis... == k Factor Analysis: Extraction 对 话 框 
Method: Principal components =£ “Method” E Fit “+ A 
"Correlation matrix c—4M “AREE” 

"BUnrotated factor solution 一 分 析 “ 非 旋转 因子 ” 

Scree plot 号 显示 做 特征 根 与 因子 相互 关系 的 “ 碎 石 图 ” 
Number of factors: 4 cBEGEA4AAGK 

“Maximum Iterations for Convergence: 25. 计算 时 的 最 大 迭代 次 数 

“Continue 一 继续 ， 回 到 图 18-3 画面 


Method: [Principal components -| 
Analyze Display 


* Correlation matrix iv Unrotated factor solution 





^ Coyariance matrix 


Extract 
Eigenvalues over: g he 


* Number of factors: [4 — 


Maximum iterations for Convergence: |25 ` 





图 18-5 Factor Analysis: Extraction 对 话 框 


* 操作 提示 ( 见 图 18-6) 


“Scores = £ É] 18-3 中 单 击 Scores 按钮 
Factor Analysis... 一 弹出 Factor Analysis: Factor Scores 对 话 框 
Save as variables 一 将 计算 出 的 因子 得 分 作为 新 变量 加 入 数据 文件 
Method: Regression — # Method 选项 组 中 选择 “回归 法 ” 
“Display factor score coefficient SET “E + 412 £ 32 3E E” 
matrix 
Continue =a, wl2JEJ 18-3 画面 
-OK 一 操作 结束 


® Regression 


Bartlett . Help ` | 
C Anderson-Rubin 


v Display factor score coefficient matrix 





图 18-6 Factor Analysis: Factor Scores 对 话 框 
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(2) 结果 解释 
e 所 有 原始 变量 的 通用 统计 描述 ， 包 括 均 数 、 标 准 差 和 总 例 数 〈 见 结果 18-1)。 


Descriptive Statistics 


| Mean _| Std, Deviation 
: 20 


35.50 21.879 





结果 18-1 所 有 原始 变量 的 通用 统计 描述 信息 
° 各 指标 间 的 相关 矩阵， 包含 偏 相关 系数 及 其 相应 己 值 ( 见 结果 18-2). 


Correlation Matrix 
Correlation X1 .695 
1.000 -. 
-.148 





.285 


结果 18-2 ”各 指标 间 的 相关 矩阵 


° 公 因 子 方差 比 ， 变 量 的 共同 度 对 所 有 变量 均 为 1， 表 明 模 型 解释 了 每 一 个 变量 的 全 
部 方差 ， 而 不 需要 特殊 因素 ， 即 特殊 因素 的 方差 为 0 ( 见 结果 18-3). 


Communatities 


| | nal | Extraction | 
1.000 





Extraction Method: Principal Component Analysis. 
结果 183 ”变量 的 共同 度 


° 主 成 分 的 统计 信息 〔 见 结果 18-4)， 包 插 特 征 根 由 大 到 小 的 次 序 排列 ， 各 主 成 分 的 
贡献 率 及 累积 贡献 率 ， 第 一 主 成 分 的 特征 根 为 1.718， 它 解释 了 总 变异 的 42.956%; 
第 二 主 成 分 的 特征 根 为 1.094, 它 解释 了 总 变异 的 27.338%, 前 两 个 特征 根 均 大 于 1, 
累积 贡献 率 为 70.295%。 由 于 第 三 主 成 分 的 特征 根 接近 1， 且 其 贡献 率 与 第 二 主 成 
分 相近 ， 故 本 例 宜 取 前 三 个 主 成 分 ， 此 时 累积 贡献 率 达 94.828%。 
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Total Variance Explained 


Initial Eigenvalues Extraction Sums of Squared Loadings 
Component Cumulative % Cumulative % 


- 42.956 1.718 42.956 
70.295 1.094 70.295 

94.828 .981 94.828 

100.000 .207 100.000 


Extraction Method: Principal Component Analysis. 


结果 18-4 主 成 分 的 统计 信息 





。 RAR LAR 18-5)， 结 合 特征 根 曲线 的 拐点 及 特征 根 值 ， 该 图 从 另 一 -个 侧面 说 
明 取 前 三 个 主 成 分 为 宜 。 














Scree Plot 
r — 
i 
° 
2 
š 
É 10 
£] 
ui 
" 
T T~ -T T 
1 2 3 4 


Component Number 


结果 18-5 WAR 


° 因为 主 成 分 个 数 确 定 为 3,， 则 再 回 到 Factor Analysis: Extraction 对 话 框 , TE “Number 
of factors" 中选 入 3, 得 到 该 因子 负荷 矩阵 。 可 见 第 一 主 成 分 主要 包含 原 变量 x1 ( 转 
氨 酶 )、x2《〈 肝 大 指数 ) 的 信息 ， 即 第 一 主 成 分 可 作为 急性 肝炎 的 描述 指标 ;类似 
地 ， 第 二 主 成 分 主要 包含 原 变量 妈 〈 和 硫酸 锌 浊 度 ) 的 信息 ， 即 第 二 主 成 分 可 作为 慢 
性 肝炎 的 描述 指标 ; 第 三 主 成 分 主要 包含 原 变量 x4( 甲 胎 球 蛋 白 ) 的 信息 ， 即 第 三 
主 成 分 可 作为 原 发 性 肝癌 的 描述 指标 〈 见 结果 18-6). 

Component Matrbe 
T i 


.099 -. 
-.297 


.213 .319 
Extraction Method: Principal Component Analysis. 
a. 3 components extracted. 





结果 18-6 Component Matrix 信息 
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e 因子 得 分 系数 矩阵 〈 见 结果 18-7)， 这 是 主 成 分 分 析 的 最 终结 果 ， 通 过 该 系数 矩阵 
可 以 将 所 有 主 成 分 表示 为 各 个 变量 的 线性 组 合 。 本 例 可 以 写 出 三 个 主 成 分 的 表达 式 
如 下 : 

zı 70.534*stdx,*0.526*stdx;-0.067*stdx34-0.124*stdx4 
z570.091*stdx;-0.27 1 *stdx;--0.865*stdx4--0.292*stdx, 
z37-0.242*stdx,*0.059*stdx;-0.273*stdx44-0.939*stdx, 

这 里 ，stdxi (i21,2,3, 40. 表示 标准 指标 变量 。 

stdx1=(x1-138.00)/88.888 
stdx2=(x2-2.33)/1.055 
stdx3=(x3-15.00)/7.420 
stdx47(x4-35.50)/21.879 

根据 以 上 公式 可 计算 出 每 条 记录 的 各 主 成 分 得 分 标准 化 值 ， 它 们 与 系统 自动 存储 为 新 

变量 的 主 成 分 结果 是 一 致 的 。 


Component Score Coefficient Matrix 


Component 





Extraction Method: Principal Component Analysis. 


Component Scores. 


结果 18-7 因子 得 分 系数 矩阵 信息 


° 如 结果 18-8 所 示 为 将 计算 出 的 每 条 记录 的 三 个 主 成 分 得 分 作为 新 变量 自动 存储 到 
原始 数据 文件 中 。 facl D 为 第 一 主 成 分 的 得 分 , fac2_1 为 第 二 主 成 分 的 得 分 , fac3 1 
为 第 三 主 成 分 的 得 分 ， 根 据 这 些 得 分 ， 可 用 于 模型 诊断 及 做 进一步 分 析 。 


1 -92927 -138851| ~ 
30 -136249. -4 15729; 
29285  .23176; 

| 158361 -56848 . 

i 50614 -82646: 

i 112539. 07488. 

! 118809 76668; 
174964  -20230: 

T 154217  .29656 
61381: .51347 
85504  .31578. 

,..0077 200664. 
01111 32242: - 
04045 289184. 
53966 -15103 . 
-18280 ' 46188. . 
17668  .28905. - 








| -149649 '.81530.- 
p -125801 19718 
-42656 17461 . 





结果 18-8. 将 三 个 主 成 分 得 分 作为 新 变量 自动 存储 到 原始 数据 文件 中 
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2. 用 主 成 分 分 析 法 解决 自 变 量 的 多 重 共 线性 问题 

进行 多 重 线性 回归 分 析 时 ， 经 常 碰 到 自 变量 之 间 强 相关 的 问题 ， 即 多 重 共 线 问题 。 主 
成 分 分 析 法 则 是 解决 这 类 问题 的 好 办 法 ， 可 通过 主 成 分 回归 来 求 回 归 系 数 。 主 成 分 回归 是 
将 原 自 变量 的 主 成 分 代替 原 自 变量 进行 回归 分 析 ， 主 成 分 既 保留 了 原 指标 的 绝 大 部 分 信 
息 ， 又 有 主 成 分 之 间 互 不 相关 的 特点 。 

主 成 分 回归 的 具体 步骤 是 : 

QD 采用 多 重 回归 分 析 ， 进 行 共 线性 诊断 ; 

D 进行 主 成 分 分 析 确定 所 需 主 成 分 数 ; 

(3) 进行 主 成 分 回归 分 析 。 

按 确定 的 主 成 分 数量 ， 将 排 在 前 面 的 主 成 分 代替 原 自 变量 进行 多 重 回归 分 析 ， 得 到 标 
准 化 自 变量 与 应 变量 之 间 的 回归 模型 ， 然 后 将 标准 化 自 变量 还 原 为 原 自 变 量 ， 得 到 原 自 变 
量 与 应 变量 的 回归 模型 。 下 面 通过 实例 说 明之 。 

某 研究 者 收集 了 13 名 儿童 的 性 别 (x1: 男 =1， 女 =2)、 年 龄 (x2: 月 )、 
身高 (x3: cm), WE (x4: kg) MWE (x5: cm) 和 心 象 面积 O: cm2)， 数 据 见 表 18-3 
〈 见 配 书 光 盘 中 的 数据 文件 data18-2.xls 或 datal18-2.sav)。 试 分 析 心 象 面积 与 性 别 、 年 龄 、 
身高 、 体 重 和 胸围 之 间 的 关系 。 





表 18-3 13 名 儿童 心 象 面积 研究 数据 


ID x1 x2 x3 x4 x5 Y 

1 1 32 95.5 14.0 53.5 49.64 
2 1 35 92.0 13.0 52.0 41.46 
3 1 33 89.0 12.5 53.5 35.81 
4 1 176 168.0 53.5 82.0 100.14 
5 1 96 117.0 19.7 56.0 67.20 
6 1 96 113.0 18.1 55.0 60.00 
7 1 96 122.0 21.6 57.3 58.00 
8 2 30 91.0 11.0 48.0 35.39 
9 2 33 91.0 11.5 47.0 44.98 
10 2 33 91.0 12.5 50.0 29.51 
11 2 176 156.0 55.0 83.0 94.66 
12 2 178 163.0 54.0 79.0 87.42 
13 2 84 130.0 25.0 58.0 62.00 


(OD 采用 多 重 回 归 分 析 ， 进 行 共 线性 诊断 

按 第 10 章 方 法 ,获得 多 重 回 归 分 析 结果 。 但 应 注意 在 线性 回归 分 析 主 界面 ( 见 图 18-7), 
ris Pil; " Statistics ”按钮 ,并 在 弹出 的 界面 中 选取 Estimates. Confidence intervals, Model fit. 
Descriptives、Collinearity diagnostics， 以 便 获得 共 线 性 诊断 的 有 关 结 果 。 
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a 操作 提示 ( 见 图 18-7 ) 


Analyze 
Regression 
Linear... 











图 18-7 线性 回归 分 析 


多 重 回归 分 析 及 共 线 性 诊断 的 有 关 结 果 如 下 。 
D 模型 总 体 的 假设 检验 结果 ( 见 结果 18-9)。 模 型 总 体 拟 合 较 好 很 好 (R?=0.953)。 7j 


差分 析 表 显示 结果 有 统计 学 意义 P=0.000)。 





Model Summary 
Model quare | R pu ES Estimate 
E sue 





a. Predictors: peers X5, — a X2, X3, — 


ANOVÈ 


一 一 - quqres Mean Square 


Regression 6108.187 1221.637 5 646 
Residual 298.526 42.647 
Total 6406.713 À 


a. Predictors: (Constant), X5, X1, X2, X3, X4 
b. Dependent Variable: Y 


结果 18-90 ”模型 总 体 的 假设 检验 结果 











@ 参数 估计 及 其 假设 检验 结果 《〈 见 结果 18-10)。 尽 管 模型 总 体 拟 合 较 好 ， 有 统计 学 


意义 ， 但 参数 估计 结果 显示 各 偏 回归 系数 均 无 统计 学 意义 ， 说 明 自 变量 存在 共 线性 。 

© 共 线 性 诊断 ， 结 果 18-11 显示 自 变 量 存 在 严重 的 共 线 性 (条 件 指数 B=262.325)， 
常数 项 (Constant)、x4 和 xs VP (Variance Proportions) 值 均 很 大 ， 分 别 为 0.99. 0.97 和 
0.98， 因 此 ， 自 变量 x4 和 xs 与 常数 项 极度 相关 。 于 是 我 们 需要 采用 主 成 分 回归 分 析 。 
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Coefficientsa 


Unstandardized Standardized 
Coefficients Coefficients 95% Confidence Interval for B Collinearity Statistics 


| B  [sutmr | Bee | 
.582 i 


Lower Bound 


.439 .674 -239.276 

~. =. : -26.836 a 4.929 
-.304 d 31.803 
-.698 i 42.363 

4.212 d 428.935 

-6.456 Ë 253.206 












8. Dependent Variable: Y 


结果 18-10 ”参数 估计 及 其 假设 检验 结果 


Collinearity Diagnostics 


Condition Variance Proportions 
Eigenvalue Index X2 x3 X4 X5 
.00 .00 J j i J 


5.581 1.000 
.335 4.084 





Model Dimension 
1 1 
2 












3 .071 8.870 
4 .012 22.024 
5 .001 62.706 


8.11E-005 
a. Dependent Variable: Y 


262.325 





结果 18-11 共 线 性 诊断 结果 
结果 18-12 显示 了 原 自 变量 的 均 数 、 标 准 差 和 例 数 信息 。 


Descriptive Statistics 
| | Mean |stdpeviation | N | 
Y 58.9392 23.10612 13 































x1 1.46 .519 
X2 84.46 59.173 
x3 116.808 29.3638 
X4 24.723 17.3091 
X5 59.562 12.8624 





结果 18-12 Descriptive Statistics 信息 


© 结果 18-13 显示 了 原 自 变量 的 相关 系数 矩阵 及 相应 P (Ë , 
HERI UL, ABE XD. x3. x4. x5 之 间 相 互 关系 非常 密切 。 
(2) 进行 主 成 分 分 析 确 定 所 需 主 成 分 数 


> 主 界面 的 操作 提示 (MA 18-8) 


"BAnalyze-*Data Reduction 一 Factor ... 一 调用 Data Reduction 进行 主 成 分 分 析 
“Bxl ~ x5 P] Variables SHERE xl. x2. x3. x4. x5 调 入 右边 
"Variables" T 65 43 4E A 
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与 统计 分 


Correlations 


Pearson Correlation Y 
x1 
x2 
x3 
X4 


Sig. (1-tailed) 









TIE Graphs Utilities Window Help 















Lil Reports » 
dj Descriptive Statistics >? RIO! 
Custon Tables » 
Coapare Beans ^| y l al 
1 32 General Linear Model ^5 49 64 
1 35 Wiged Models , b 4161 
1 gg Correlate "k 3581 
1 176 liegression Š b 100.14 
1 96 .b 
1 96 T à 
1 
2 






> I: | uae Veste: 
a 5 30 — Jonpereetric Tests P Qptinel Seeling. Jj Se 
[:[»MData Vies £ Variable Tine Series sr xi 
š Survival , 







Sapa sedes] ere. ] penas | ame 





Wultiple Response , 
Wissing Value Analysis 








18-8. XJ 4A ET 


* 选项 的 操作 提示 
在 图 18-8 中 单 击 Descriptives 按钮 得 到 图 18-9 界面 ， 其 中 的 选项 含义 如 下 。 
Univariate descriptives cik4f Statistics 中 的 “通用 统计 描述 量 ” 
Initial solution =ik# Statistics 中 的 “初始 解 ” 
Coefficients c ik4f Correlation Matrix 中 的 “相关 系数 ” 
Significance levels «iif Correlation Matrix 中 的 “统计 学 检验 已 值 ” 
“Continue ck, wl2JE] 18-8 画面 


主 成 分 分 析 与 因子 分 析 ERN 


Wv |nitial solution 


Correlation Matrix 

v Coefficients f Inverse 

W Significance levels l Reproduced 
! Determinant ! Antiimage 
l KMO and Bartlett's test of sphericity 





图 18-9 Descriptives 对 话 框 


在 图 18-8 中 单 击 Extraction 按钮 得 到 图 18-10 界面 ， 其 中 的 选项 含义 如 下 。 


Method: Principal components =£ “Method” Pt “IRD” 
Correlation matrix c2 “82 EF” 
Unrotated factor solution 一 显示 “ 非 旋 转 因 子 ” 
Scree plot 全 显示 做 特征 根 与 因子 相互 关系 的 “ 碎 石 图 ” 
“Number of factors: 5 号 自 定义 主 成 分 个 数 
Maximum Iterations for Convergence: ”一 计算 时 的 最 大 迭代 次 数 

25 
“Continue 号 继续 ， 回 到 图 18-8 画面 
在 图 18-8 中 单 击 Scores 按钮 得 到 图 18-11 界面 ， 其 中 的 选项 含义 如 下 。 
“OSave as variables 全 将 计算 出 的 因子 得 分 作为 新 变量 加 入 数据 文件 
Method: Regression 仿 在 “Method” 选 项 组 中 选择 “回归 法 ” 
“©Display factor score coefficient matrix 一 显示 “因子 得 分 系数 和 矩阵” 
-Continue 一 继续 ， 回 到 图 18-8 画面 


v Save as variable s 


Method š 
C 1 
'* Regression E 


^ Coyariance matrix v Scree plot 


Extract 
^ Eigenvalues over: Í 


C Bartlett — 


^ Anderson-Rubin 


* Number of factors: |5 


Maximum Iterations for Convergence: 25 iv Display factor score coefficient matrix 





图 18-10 Extraction 对 话 框 图 18-11 因子 得 分 对 话 框 


主 成 分 分 析 的 有 关 结 果 如 下 : 

(D 主 成 分 的 统计 信息 〈 见 结果 18-14)， 包 括 特 征 根 由 大 到 小 的 次 序 排列 ， 各 主 成 分 
的 页 献 率 及 累积 贡献 率 。 第 一 主 成 分 的 特征 根 为 3.918, 它 解释 了 总 变异 的 78.366%; 第 二 
主 成 分 的 特征 根 为 0.989， 接 近 1， 它 解释 了 总 变异 的 19.770%。 前 二 个 特征 根 的 累积 贡献 
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(SPSS 与 统计 分 析 — 


率 为 98.136%， 即 前 二 个 主 成 分 包含 了 原 有 5 个 指标 的 98.136% 的 信息 ， 所 以 本 例 可 以 取 
前 二 个 主 成 分 来 代替 原 有 的 5 个 指标 变量 。 


Total Variance Explained 


Initial Eigenvalues Extraction Sums of Squared Loadings 
Component Cumulotive % % of Variance | Cumulative 96 





Extraction Method: Principal Component Analysis. 
结果 18-14 X 2 S ZEE f E, 


Q TORRE] ( 见 结果 18-15)， 显 示 前 二 个 主 成 分 的 特征 根 接近 1 及 以 上 ， 进 一 步 说 明 
取 前 二 个 主 成 分 。 











Scree Plot 
d t ÀÀ —————— — EM -— 
3 
i | 
i 
š ° 
° 
m 
ü 
1 
| 
T T T T T 
t 2 3 4 5 


Component Number 


结果 8-15 RAR 


© 因子 得 分 系数 矩阵 〈 见 结果 18-16)， 通 过 该 矩阵 可 以 将 所 有 主 成 分 表示 为 各 个 变 
量 的 线性 组 合 。 本 例 可 以 写 出 二 个 主 成 分 的 表达 式 如 下 : 
zı = 0.041stdx; + 0.251stdx; + 0.252stdxs + 0.254stdx, + 0.251stdxs 
z2 = 0.998stdxi — 0.089stdx; — 0.045stdxs + 0.033stdx4 — 0.063stdxs (18-1) 
RE, std; (i=1, 2, 3, 4, 50. 表示 标准 指标 变量 。 
stdxi=(xi-1.46)/0.519 
stdx?-(x?-84.46)/59.173 
Stdx3-(x5-116.81)/29.364 
Stdxa-(x4-24.72)/17.309 
Stdx5—(x5-59.56)/12.862 (18-2) 
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根据 以 上 公式 可 以 计算 出 每 条 记录 的 第 一 与 第 二 主 成 分 得 分 标准 化 值 ， 它 们 与 系统 自 
动 存储 为 新 变量 的 主 成 分 结果 是 一 致 的 。 


Component Score Coefficient Matrix 


.041 
.251 -.089 1.839 


252 -.045 1.785 
.254 .033 -1.325 
.251 -.063 -2.309 





Extraction Method: Principal Component Analysis. 
Component Scores. 


结果 18-16 ”因子 得 分 系数 矩阵 


(3) 主 成 分 回归 分 析 
结果 18-14 提示 ， 前 二 个 主 成 分 包含 了 原 有 5 个 指标 的 98.136% 的 信息 ， 所 以 下 面 采 
用 前 二 个 主 成 分 来 代替 原 有 的 5 个 变量 进行 主 成 分 回归 分 析 。 
a 操作 提示 ( 见 图 18-12 ) 
Analyze—Regression—Linear... 号 调用 多 重 线性 回归 分 析 
yP] Dependent 将 y 调 入 右边 的 “Dependent” 下 的 短 形 框 内 
-facl_1, fac2_1 P] Independent(s) ”一 将 数据 库 中 的 新 变量 facl_1、fac2_1 调 入 右边 
"Independent(s)" T 44E 723E Pj 


Dependent: 


ey 


revious | Block1of1 _ Nee | 





Independent(s]: 








K 18-12 主 成 分 回归 


主 成 分 回归 分 析 的 有 关 结 果 如 下 。 


QD 主 成 分 回归 分 析 的 模型 拟 合 情 况 见 结果 18-17, 结果 显示 模型 拟 合 较 好 (CR2-0.943 , 
方差 分 析 P=0.000). 
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与 统计 分 


Model Summary 


Adjusted Std. Error of 
R Square BENE Square | the Estimate 
O | a os | 6.04470 | 


a. Predictors: (Constant), A factor score 2 for 
analysis 1, REGR factor score 1 for analysis 1 









ANOVÆ 


Sum of 
Squares Mean Square 





Regression | 6041.329 3020.665 Live 671 E 
Residual 365.384 to 36.538 
Total 6406.713 12 


a. Predictors: (Constant), REGR factor score 2 for analysis 1, REGR factor score 1 
for analysis 1 


b. Dependent Variable: Y 


结果 18-17 主 成 分 回归 分 析 模 型 结果 


D 主 成 分 回归 分 析 的 参数 估计 及 其 假设 检验 见 结果 18-18, GR on A. A RAHA 
统计 学 意义 (P=0.000，0.000，0.067)， 即 zi (facl 1) Fiz, (fac2 1》 对 应 变量 y 有 作用 ， 
其 线性 回归 方程 为 : 

$ =58.939 + 22.1492, —3.589z; (18-3) 


Coefficients" 


EEES E icients arr Confidence Interval for B. Collinearity Statistics 


Lower | Lower Bound | 


1 (Constant) —= 935 ETE 676 m 156 62.678 
REGR factor score 22.149 1.745 12.693 18.261 26.037 1. 
1 for analysis 1 000 1.000 
REGR factor score 
2 for analysis 1 -3.589 1.745 -2.057 -7.477 1.000 1.000 


a. Dependent Variable: Y 














结果 18-18 主 成 分 回归 分 析 的 参数 估计 及 其 假设 检验 结果 


© 将 主 成 分 分 析 结 果 ( 见 结果 18-160 引入 。 将 公式 (18-1) 的 zi 与 z 表 达 式 代入 上 
面 的 回归 方程 ， 即 代入 公式 (18-3)， 得 到 应 变量 y 与 标准 自 变 量 stdx,-stdxs 的 线性 回归 
方程 : 

p= 58.951—2.683stdxi + 5.877stdx; + 5.741stdxs + 5.505stdx4 + 5.784stdxs (18-4) 

D 将 标准 自 变量 还 原 为 原 自 变量 ,将 主 成 分 分 析 中 提 到 的 公式 (18-2) 代 入 公式 (18-3) 
的 回归 方程 中 ， 得 到 的 应 变量 y 与 原 自 变量 o xs 的 线性 回归 方程 为 : 

— 0.626 — 5.169x; + 0.099x; +0.196x3 + 0.318x4 + 0.450xs (18-5) 
AX 018-50. 即 为 用 主 成 分 回归 分 析 法 求 得 的 线性 回归 模型 。 
在 上 述 分 析 步 骤 中 ， 步 又 @@ 和 步骤 @ 需 用 人 工 计 算 ， 其 余 过 程 均 通 过 SPSS 实现 。 
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18.2 ”因子 分 析 


18.2.1 概述 


在 医学 科学 研究 中 ， 经 常会 遇 到 我 们 所 要 研究 的 变量 不 能 或 不 易 直接 观测 ， 它 们 只 能 
通过 其 他 多 个 可 观测 指标 来 间接 反映 。 例 如 ， 医 院 的 医疗 工作 质量 是 一 个 不 易 直 接 测 得 的 
变量 ， 我 们 称 这 种 不 能 或 不 易 观 测 的 变量 为 潜在 变量 或 潜在 因子 。 虽 然 潜 在 变量 不 能 直接 
测 得 ， 但 它 却 是 一 种 抽象 的 客观 存在 ， 必 定 与 某 些 可 测 变量 存在 着 某 种 程度 上 的 关联 ， 如 
我 们 可 以 通过 门诊 人 次 、 出 院 人 数 、 诊 断 符合 率 、 治 愈 率 、 病 死 率 等 一 些 可 观测 指标 来 反 
映 医 院 的 医疗 工作 质量 这 个 潜在 变量 。 

通常 ， 多 变量 之 间 往 往 具 有 相关 性 ， 其 产生 的 原因 可 能 是 有 潜在 的 因素 对 观测 的 变量 
起 支配 作用 ， 如 何 找 出 这 些 潜 在 因素 ? 这 些 潜在 因素 是 如 何 对 原始 指标 起 支配 作用 的 ? 因 
子 分 析 就 可 解决 这 些 问题 。 

因子 分 析 (Factor Analysis) 是 一 种 寻找 隐藏 在 可 测 变量 中 ， 不 能 或 不 易 直 接 观测 到 ， 
但 却 影响 或 支配 可 测 变量 的 潜在 因子 ， 并 估计 潜在 因子 对 可 测 变量 的 影响 程度 及 潜在 因子 
之 间 关 联 性 的 多 元 统计 分 析 方 法 。 简 言 之 ， 因 子 分 析 就 是 一 种 寻找 潜在 支配 因子 的 模型 分 
析 方 法 ， 其 作用 是 分 析 可 观测 到 的 原始 多 个 变量 ， 找 出 数目 相对 较 少 的 ， 对 原始 变量 有 潜 
在 支配 作用 的 因子 。 因 子 分 析 的 主要 任务 是 找 出 共性 因子 变量 ， 估 计 因 子 模型 ， 计 算 共 性 
因子 变量 的 取 值 和 对 共性 因子 变量 做 出 合理 的 解释 。 同 回归 分 析 一 样 ， 因 子 分 析 是 首先 提 
出 一 个 假设 模型 ， 然 后 估计 模型 中 的 常数 参数)， 再 用 它 解 决 实际 问题 。 

因子 分 析 可 分 为 两 类 ， 一 类 为 探索 性 因子 分 析 (Exploratory Factor Analysis )， 另 一 类 为 
确定 性 因子 分 析 〈Confirmatory Factor Analysis )。 探 索性 因子 分 析 通 常 简称 为 因子 分 析 ， 它 主 
要 应 用 在 数据 分 析 的 初期 阶段 ， 其 是 的 是 探讨 可 测 变量 的 特征 、 性 质 及 其 内 部 的 关联 性 ， 并 
揭示 有 哪些 主要 的 潜在 因子 可 能 影响 这 些 可 测 变量 。 它 要 求 所 找 出 的 潜在 因子 之 间 相 互 独立 
及 有 实际 意义 ， 并 且 这 些 潜在 因子 尽 可 能 多 地 表达 原 可 测 变量 的 信息 。 探 索性 因子 分 析 的 结 
果 一 般 不 需要 进行 统计 检验 , 在 结构 方程 模型 分 析 中 , 可 通过 探索 性 因子 分 析 建 立 理论 变量 。 

确定 性 因子 分 析 是 在 探索 性 因子 分 析 的 基础 上 进行 的 ， 当 已 经 找到 可 测 变量 可 能 被 哪 
一 个 潜在 因子 影响 ， 而 只 需 进 一 步 明确 每 一 个 潜在 因子 对 可 测 变量 的 影响 程度 ， 以 及 这 些 
潜在 因子 之 间 的 关联 程度 时 ， 则 可 进行 确定 性 因子 分 析 。 该 分 析 不 要 求 所 找 出 的 这 些 潜 在 
因子 之 间 相 互 独立 ， 其 目的 是 明确 潜在 因子 之 间 的 关联 性 ， 它 是 将 对 多 个 指标 之 间 的 关联 
性 研究 简化 为 对 较 少 几 个 潜在 因子 之 间 的 关联 性 研究 ， 其 分 析 结 果 需 进行 统计 检验 ， 确 定 
性 因子 分 析 是 结构 方程 模型 分 析 的 关键 一 步 。 这 里 主要 介绍 探索 性 因子 分 析 。 


18.2.2 ”实例 与 操作 


1. 用 探索 性 因子 分 析 方法 探讨 综合 评价 体系 
为 评价 医院 的 医疗 工作 质量 ， 某 研究 者 收集 了 近 三 年 的 门诊 人 次 、 出 
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[SPSS ÉE iee 
院 人 数 、 病 床 利用 率 等 9 个 指标 , 具体 数据 见 表 18-4( 见 本 书 光盘 中 的 数据 文件 datal8-3.xls 
或 data18-3.sav) 。 试 用 因子 分 析 方 法 探讨 其 综合 评价 体系 。 


318-4 某 医 院 近 三 年 医疗 工作 质量 指标 数据 
年 月 门诊 人 次 出 院 病床 病床 周 平均 住 治愈 病死 率 诊断 抢救 








(万 ) 人 数 利用 率 转 次 数 院 天 数 好 转 率 符合 率 成 功率 

Xo x X x3 (96) X4 Xs xe (96) xr C) xs (90) Xo (90) 

1-01 4.34 389 99.06 1.23 25.46 93.15 3.56 97.51 61.66 
1-02 3.45 271 88.28 0.85 23.55 94.31 2.44 97.94 73.33 
1-03 4.38 385 103.97 1.21 26.54 92.53 4.02 98.48 76.79 
1-04 4.18 377 99.48 1.19 26.89 93.86 2.92 99.41 63.16 
1-05 4.32 378 102.01 1.19 27.63 93.18 1.99 99.71 80.00 
1-06 4.13 349 97.55 1.10 27.34 90.63 4.38 99.03 63.16 
1-07 4.57 361 91.66 1.14 24.89 90.60 2.73 99.69 73.53 
1-08 4.31 209 62.18 0.52 31.74 91.67 3.65 99.48 61.11 
1-09 4.06 425 83.27 0.93 26.56 93.81 3.09 99.48 70.73 
1-10 4.43 458 92.39 0.95 24.26 91.12 4.21 99.76 79.07 
1-11 4.13 496 95.43 1.03 28.75 93.43 3.50 99.10 80.49 
1-12 4.10 514 92.99 1.07 26.31 9324 4.22 100.00 78.95 
2-01 4.11 490 80.90 0.97 26.90 93.68 4.97 99.77 80.53 
2-02 3.53 344 79.66 0.68 31.87 94.77 3.59 100.00 81.97 
2-03 4.16 508 90.98 1.01 29.43 95.75 2.77 98.72 62.86 
2-04 4.17 545 92.98 1.08 26.92 94.89 3.14 99.4] 82.35 
2-05 4.16 507 95.10 1.01 25.82 94.41 2.80 99.35 60.61 
2-06 4.86 540 93.17 1.07 27.59 93.47 2.77 99.80 70.21 
2-07 5.06 552 84.38 1.10 27.56 95.15 3.10 98.63 69.23 
2-08 4.03 453 72.69 0.90 26.03 91.94 4.50 99.05 60.42 
2-09 4.15 529 86.53 1.05 22.40 91.52 3.84 98.58 68.42 
2-10 3.94 515 91.01 1.02 25.44 94.88 2.56 99.36 73.91 
2-11 4.12 552 89.14 1.10 25.70 92.65 3.87 95.52 66.67 
2-12 4.42 597 90.18 1.18 26.94 93.03 3.76 99.28 73.81 
3-01 3.05 437 78.81 0.87 23.05 94.46 4.03 96.22 87.10 
3-02 3.94 477 87.34 0.95 26.78 91.78 4.57 94.28 87.34 
3-03 4.14 638 88.57 1.27 26.53 95.16 1.67 94.50 91.67 
3-04 3.87 583 89.82 1.16 22.66 93.43 3.55 94.49 89.07 
3-05 4.08 552 90.19 1.10 22.53 90.36 3.47 97.88 87.14 
3-06 4.14 551 90.81 1.09 23.06 91.65 2.47 97.72 87.13 
3-07 4.04 574 81.36 1.14 26.65 93.74 1.61 98.20 93.02 
3-08 3.93 515 76.87 1.02 23.88 93.82 3.09 95.46 88.37 
3-09 3.90 555 80.58 1.10 23.08 94.38 2.06 96.82 91.79 
3-10 3.62 554 87.21 1.10 22.50 92.43 322 97.16 87.77 
3-11 3.75 586 90.31 1.12 23.73 92.47 2.07 97.14 93.89 
3-12 3.77 627 86.47 1.24 23.22 91.17 3.40 98.98 89.80 
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2. 因子 分 析 过 程 的 操作 提示 
* 操作 提示 ( 见 图 18-13 和 图 18-14 ) 


Analyze 号 在 菜单 栏 上 单 击 Analyze 
“Data Reduction «itf Data Reduction 项 
Factor ... c i 4 Factor ... 项 


xl ~x9 P] Variables 一 将 原 变量 xl, xz2, ..., 39 选 入 右边 “Variables” 下 的 矩形 框 内 


EG1903 SPSS Data Editor 


File Edit View Date Iransform [UELLE Graphs Utilities Yi 
k Ç J | Reports 
— — L 1952777 iain 
bon Š M-34! Custom Tables 
Compare Means 
38 General Linear Model : 7 93.15 


Mixed Models 
27 Correlate 9431 


38 | 28. 9253 


Begression 


31 risa | 83.86 


37 aas | 27. 93.18 
34 

38 Sesle Correspondence Analysis. 
20 Nonparametric Tests Optimal Scaling. 

42 Time Series 

45  Swvival 

48 Multiple Response 

51 Missing Value Analysis. 


490 80.90 97 
344 79.66 68 





图 18-13 ”因子 分 析 菜 单 
在 图 18-14 画面 单 击 Descriptives 按钮 ， 弹 出 Factor Analysis: Descriptives 对 话 框 ， 选 
HZ “initial solution”， 得 到 图 18-15. 








Selection Variable: 
一 一 一 一 一 — 


[»] 


ys 
Descriptives...| Extraction... | Rotation... Scores.. | . Options... | 











mmn niis nM LR M i Me Mee Me j 


Elm 








图 18-14 ”因子 分 析 主 对 话 框 图 18-15 Descriptives 对 话 框 
在 图 18-14 画面 中 单 击 Extraction 按钮 ， 得 到 图 18-16. 其 中 的 选项 含义 如 下 : 
Method: Principal components = # "Method" JE Pikj “+ NX” 
-Correlation matrix FSET “MRE” 
"BUnrotated factor solution 全 显示 “ 非 旋转 因子 ” 
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“Number of factors: 4 全 自 定 义 公 因子 个 数 
Maximum Iterations for Convergence: 25 一 计算 时 的 最 大 迭代 次 数 
Continue 一 继续 ， 回 到 图 18-14 画面 





Method: [Principal components 了 | 
Analyze Display 
'* Correlation matrix iV Unrotated factor solution 


C Covariance matrix I^ Scree plot 


; Extract 
^ Eigenvalues over: |' 
G Number of factors: [4 


Maximum Iterations for Convergence: fes 





Kl] 18-16 Extraction 子 对 话 框 


在 图 18-14 画面 中 单 击 Rotation 按钮 ， 得 到 图 18-17。 其 中 的 选项 含义 如 下 : 


Method: Quartimax 一 在 “Method” 中 选择 “四 次 方 最 大 旋转 ” 
Display: Rotated solution 之 在 “Display” 中 选择 “旋转 因子 载荷 ” 
Maximum Iterations for Convergence: 25 一 计算 时 的 最 大 和 迭代 次 数 

Continue ; 中 继续 ， 回 到 图 18-14 画面 


Factor Analysis: Rotation 


Method 

None 

^ Marimax 

^ Direct Oblimin 

Display 

iv Rotated solution ' Loading plot(s) 


Maximum Iterations for Convergence: fes 





图 18-17 Rotation 子 对 话 框 


在 图 18-14 画面 中 单 击 Scores 按钮 ， 得 到 图 18-18。 其 中 的 选项 含义 如 下 : 


Save as variables 一 将 计算 出 的 因子 得 分 作为 新 变量 加 入 数据 文件 

Method: Regression 全 在 “Method” 中 选择 “回归 法 ” 

Display factor score coefficient ”显示 “因子 得 分 系数 矩阵 
matrix 

Continue 一 继续 ， 回 到 图 18-14 画面 

-OK 一 操作 结束 
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Factor Analysis: Facto 
Iv Save as variables, 
| * Regression 


| C Bartlett | Help | 
| 
l 


| C Anderson-Rubin 













iv Display factor score coefficient matrix 


18-18 Factor Scores 子 对 话 框 


3. 结果 解释 

(1) 主 成 分 信息 〈 见 结果 18-19)， 图 中 显示 前 3 个 主 成 分 的 特征 值 大 于 1， 但 它们 的 
累积 贡献 率 仅 为 69.585%, 故 将 第 4 个 公 因 子 加 入 , 此 时 累积 贡献 率 达 78.294%, 即 约 78.3% 
的 总 方差 可 以 由 4 个 潜在 因子 解释 。 


Total Variance Explained 















































5.047 
1.942 








MEE UU | Extraction Sums of Squared Loadings Rotation Sums of Squared Loadings 
Component Total 
1 2.822 31.357 2.822 2.646 29.404 29.404 
2 22.138 1.992 20.527 49.931 
3 16.091 1.448 16.340 66.271 
4 8.709 .784 12.023 78.294 
5 7.424 

6 5.965 

7 

8 

9 





Extraction Method: Principal Component Analysis. 


结果 18-19” 主 成 分 信息 


(2) 公 因 子 方差 比 〈 见 结果 18-20): 结果 显示 ， 每 一 个 指标 变量 的 共性 方差 均 在 0.5 
以 上 ， 且 大 多 数 接近 或 超过 0.7， 说 明 这 4 个 公 因子 能 够 较 好 地 反映 原 各 指标 变量 的 大 部 
分 信息 。 


Communalities 

——— [ia [ Extraction | 
BiA CIXI j j 

出 院 人 数 X2 
病床 利用 率 X3 (%) 
病床 周转 次 数 X4 
平均 住院 天 数 X5 
治愈 好 转 率 Xe (%) 
病死 率 XT (%) 
诊断 符合 率 X8 (%) 
抢救 成 功率 X9 (%) 
Extraction Method: Principal Component Analysis. 


结果 18-20” 公 因子 方差 比 
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(3) 旋转 前 的 因子 载荷 阵 〈 见 结果 18-21): 根据 0.5 原则 ， 因 子 1 在 多 数 原始 指标 上 
有 较 大 的 载荷 ;因子 2 Ex, CEAR x (病床 利 用 率 ) 和 za〈 病 床 周转 次 数 ) 指标 上 
有 较 大 载荷 ， 因 子 3 x CARRER) Ma AAR) 指标 上 有 较 大 载荷 ， 因 子 4 ñ: x; 
CHE APO 指标 上 有 较 大 载荷 。 因 而 说 明 ， 除 可 初步 认定 因子 1 反映 综合 情况 ， 因 子 3 
反映 医疗 水 平 情况 外 ， 其 他 两 个 因子 的 意义 不 明显 。 


Component Matrix: 


Component 


门诊 

出 院 人 数 X2 

病床 利用 率 X3 (%) 

病床 周转 次 数 X4 

平均 住院 天 数 X5 

治愈 好 转 率 X6 (%) 

病死 率 X7 (%) 

诊断 符合 率 X8 (%) 

抢救 成 功率 X9 (A) 

Extraction Method: Principal Component Analysis. 
a. 4 components extracted. 


结果 18-21 旋转 前 的 因子 载荷 阵 
(4) 正 交 旋转 阵 ( 见 结果 18-22): 这 是 通过 四 次 方 最 大 旋转 得 到 的 正 交 变换 矩阵 。 





Component Transformation Matrix 
| component | + | 2 | 3 | 
1 -. . .153 .138 
2 R . .027 .460 


3 . -. .980 .076 
4 -.086 -.462 -.124 .874 





Extraction Method: Principal Component Analysis. 
Rotation Method: Quartimax with Kaiser Normalization. 


结果 18-22” 正 交 旋 转 阵 


(5) 旋转 后 的 因子 载荷 阵 〈 见 结果 18-23): 通过 四 次 方 最 大 旋转 后 ， 得 到 了 9 个 指标 
在 4 个 因子 上 的 新 的 因子 载荷 。 结 果 显 示 ， 因 子 1 支配 的 指标 有 xy CT] AK). x) CHI 
人 数 )、xs 平 均 住 院 天 数 )、xs “诊断 符合 率 ) 和 x。( 抢 救 成 功率 )， 因 子 2 支配 的 指标 有 
x3《 病 床 利用 率 ) 和 xa (病床 周转 次 数 )， 因 子 3 支配 的 指标 有 x (治愈 好 转 率 ) 和 x;( 病 
死 率 )， 且 治愈 好 转 率 为 正 值 ， 病 死 率 为 负 值 ， 因 子 4 支配 的 指标 有 xi (门诊 人 次 ) 和 x 
《出 院 人 数 )。 故 可 以 认为 ， 因 子 1 反映 医院 医疗 工作 质量 各 方面 的 情况 ， 称 为 综合 因子 ; 
因子 2 反映 病床 利用 情况 ， 称 为 病床 利用 因子 ， 因 子 3 反映 医疗 水 平 ， 称 为 水 平 因子 ; D 
子 4 反映 就 诊 病 人 数量 ， 称 为 数量 因子 。 与 旋转 前 的 因子 载荷 阵 相 比较 ， 说 明 该 旋转 对 因 
子 载荷 起 到 了 明显 的 分 离 作 用 ， 使 各 因子 具有 和 较 明确 的 专业 意义 。 

通过 探索 性 因子 分 析 ， 从 这 9 个 医院 医疗 工作 质量 指标 中 找 出 了 4 个 潜在 因子 ， 它 们 
为 : 综合 因子 、 病 床 利用 因子 、 水 平 因子 和 数量 因子 。 它 们 之 间 没 有 交叉 支配 ， 即 每 个 指 
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主 成 分 分 分 


标 只 受 一 个 潜在 因子 影响 ， 且 没有 单 指标 潜在 因子 出 现 ， 即 一 个 潜在 因子 至 少 支配 2 个 指 
标 。 


Rotated Component Matri* 


I2 

出 院 人 数 X2 

病床 利用 率 X3 (%) 
病床 周转 次 数 X4 


平均 住院 天 数 X5 
治愈 好 转 率 X6 (%) 
病死 率 X7 (%) 
诊断 符合 率 X8 (%) 
抢救 成 功率 X9 (%) 





Extraction Method: Principal Component Analysis. 
Rotation Method: Quartimax with Kaiser Normalization. 


a. Rotation converged in 5 iterations. 
结果 18-23 ”旋转 的 因子 载荷 阵 
(6) 如 结果 18-24 所 示 为 将 通过 旋转 后 计算 出 的 每 条 记录 的 4 个 因子 得 分 作为 新 变量 
自动 存储 到 原始 数据 文件 中 。facl_1 为 第 1 因子 得 分 ，fac2_1 为 第 2 因子 得 分 ，fac3 1 为 
第 3 因子 得 分 ，fac4_1 为 第 4 因子 得 分 ， 根 据 这 些 得 分 ， 可 了 解 各 观察 对 象 的 潜在 本 质 。 





E E E E FACI 1 



























































9194 45 Sl E 


结果 18-24 ”存储 数据 文件 











18.3” 主 成 分 分 析 与 因子 分 析 的 联系 及 区 别 


(1) 两 者 都 是 在 多 个 原始 变量 中 通过 它们 之 间 的 内 部 相关 性 来 获得 新 的 变量 ( 主 成 分 
变量 或 公 因 子 变 量 )， 达 到 既 减 少 分 析 指标 个 数 ， 又 能 概括 原始 指标 主要 信息 的 目的 。 但 
它们 各 有 其 特点 : 主 成 分 分 析 是 将 m 个 原始 变量 提取 KE< m) 个 互 不 相关 的 主 成 分 ， 因 子 
分 析 是 提取 k(k< m) 个 支配 原始 变量 的 公 因子 和 1 个 特殊 因子 ， 各 公 因 子 之 间 可 以 相关 或 
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互 不 相关 。 

(2) 提取 公 因 子 的 方法 主要 有 主 成 分 法 和 公 因 子 法 ， 若 采用 主 成 分 法 ， 则 主 成 分 分 析 
和 因子 分 析 基 本 等 价 ， 该 法 主要 从 解释 变量 的 变异 角度 ， 尽 量 使 变量 的 方差 能 被 主 成 分 解 
释 ， 即 主 成 分 法 倾向 得 到 更 大 的 共性 方差 ， 而 公 因子 法 主要 是 从 解释 变量 的 相关 性 角度 ， 
尽量 使 变量 的 相关 程度 能 被 公 因 子 解 释 ， 当 因子 分 析 的 目的 重 在 确定 结构 时 则 会 用 到 该 

(3) 因子 分 析 提 取 的 公 因子 比 主 成 分 分 析 提 取 的 主 成 分 更 具有 可 解释 性 。 主 成 分 分 析 
不 考虑 观察 变量 的 度量 误差 ， 直 接 用 观察 变量 的 某 种 线性 组 合 来 表示 一 个 综合 变量 ;而 因 
子 分 析 的 潜在 变量 则 校正 了 观察 变量 的 度量 误差 ， 且 它 还 可 进行 因子 旋转 ， 使 潜在 因子 的 
实际 意义 更 明确 ， 分 析 结 论 更 真实 。 

(4) 两 者 分 析 的 实质 及 重点 不 同 。 主 成 分 的 数学 模型 为 Z=BX， 即 主 成 分 Z 为 原始 变 
量 忆 的 线性 组 合 ， 因 子 分 析 的 数学 模型 为 XBF+e， 即 原始 变量 X 为 公 因子 与 特殊 因子 
e 的 线性 组 合 。 因 而 可 知 ， 主 成 分 分 析 主 要 是 综合 原始 变量 的 信息 ， 而 因子 分 析 重 在 解释 
原始 变量 之 间 的 关系 。 主 成 分 分 析 实 质 上 是 线性 变换 ， 无 假设 检验 ， 而 因子 分 析 是 统计 模 
型 ， 某 些 因 子 模型 (如 ML 估计 ) 是 可 以 得 到 假设 检验 的 。 

(5) 两 者 的 SPSS 操作 都 是 通过 “Analyze 一 Data Reduction— Factor ...” 过 程 实现 ， 但 
AERA A EL EREM " Descriptives". "Extraction". “Scores” 对 话 框 ， 而 因子 分 析 除 使 用 
这 些 对 话 框 外 ， 还 可 使 用 “Rotation” 对 话 框 进行 因子 旋转 。 
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第 19 章 多 因素 方差 分 析 





现实 世界 中 变量 间 的 联系 是 错综复杂 的 ， 当 多 个 控制 因素 共同 作用 于 一 个 观察 变量 
时 ， 如 果 要 考虑 每 个 因素 的 影响 及 其 各 因素 间 的 交互 作用 ， 单 因素 设计 的 方差 分 析 不 再 适 
用 。 多 因素 方差 分 析 可 以 测试 若干 个 控制 因素 的 改变 是 否 导致 观察 变量 的 变化 。 本 方法 的 
实质 是 对 不 同 交叉 分 组 ( 称 作 单 元 格 ) 内 的 样本 数据 所 代表 的 总 体 均值 间 的 差异 进行 检 
验 ， 即 检验 不 同 控制 变量 在 不 同 交叉 水 平 下 的 总 体 均值 间 的 差异 是 否 具 有 统计 学 意义 。 多 
因素 方差 分 析 模 型 的 适用 条 件 仍 需 满足 数据 相互 独立 、 正 态 分布 和 总 体 方差 齐 同 。 


19.1 随机 区 组 设计 及 其 方差 分 析 


19.1.1 概述 


随机 区 组 设计 (Randomized Block Design) 又 称 为 配伍 组 设计 ， 它 是 将 若干 个 研究 对 
象 按 一 定 条 件 划分 成 区 组 ， 每 一 个 区 组 包含 多 个 研究 对 象 ， 随 机 地 分 配 到 不 同 的 处 理 组 ， 
每 个 区 组 的 例 数 等 于 处 理 组 的 组 数 。 用 于 划分 区 组 的 因素 应 当 是 影响 研究 结果 的 主要 非 处 
理 因素 。 例 如 ， 窝 别 、 体 重 相同 或 相近 的 实验 动物 被 划分 到 同一 个 区 组 ; 在 临床 试验 中 ， 
将 性 别 、 年 龄 、 病 情 、 病 程 等 条 件 相同 或 相近 的 病人 列 入 到 同一 个 区 组 。 随 机 区 组 设计 可 
以 使 各 处 理 组 中 的 研究 对 象 的 条 件 均衡 ， 具 有 良好 的 可 比 性 。 

由 于 控制 了 非 处 理 因素 的 影响 ， 在 进行 统计 分 析 时 ， 可 以 将 区 组 变异 的 离 均 差 平 方 和 
从 组 内 变异 的 离 均 差 平 方 和 中 分 解 出 来 ， 从 而 减 小 了 组 内 平方 和 《“ 即 误差 平方 和 )， 使 得 
处 理 因素 的 效应 得 到 比较 符合 实际 的 客观 反映 ， 提 高 了 统计 检验 的 效率 。 区 组 设计 资料 的 
分 析 方 法 为 两 因素 方差 分 析 , 但 由 于 是 一 个 双 因 素 无 重复 的 设计 , 即 单元 格 内 无 重复 数据 ， 
因此 交互 作用 和 方差 齐 性 均 无 法 考察 。 


| SPSS 与 统计 分 析 


19.1.2 ”实例 与 操作 
1. 实例 描述 


某 研究 者 采用 随机 区 组 设计 进行 实验 ， 比 较 三 种 抗 癌 药 物 对 小 白鼠 肉 
瘤 的 抑 瘤 效果 。 先 将 15 只 染 有 肉瘤 的 小 白鼠 按 体重 大 小 配 成 5 个 区 组 ， 每 个 区 组 内 3 只 小 白 
鼠 随 机 接受 三 种 抗 癌 药 物 ， 以 肉瘤 的 重量 为 观察 指标 ， 实 验 结果 见 表 19-1 ( 见 数据 文件 
datal9-l.xls 或 data19-1.sav)。 问 三 种 不 同 药 物 的 抑 瘤 效果 有 无 差别 ? 


表 19-1 不 同 药物 作用 后 小 白鼠 肉瘤 重量 (g) 


区 组 A 药 B 药 C 药 
1 0.82 0.65 0.51 
2 0.73 0.54 0.23 
3 0.43 0.34 0.28 
4 0.41 0.21 0.31 
5 0.68 0.43 0.24 


2 GLM 过 程 的 操作 提示 





19-1 定义 模型 中 的 变量 
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* 操作 提示 ( 如 图 19-2 所 示 ) 













x hte a 


fee i 


i nisada 
is enis 
dian: eae Ew Md 





den us PADRE dione SERATA i22 
结果 解释 
由 方差 分 析 结 果 19-1 可 见 : 药物 的 影响 (F—11.937, P =0.004<0.05) 和 区 组 因素 的 


H (F=5.978, P=0.016<0.05) 皆 有 统计 学 意义 。 认 为 三 种 不 同 药物 作用 后 小 白鼠 肉 
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瘤 重 量 的 总 体 均 数 不 全 相等 ， 即 不 同 药 物 的 抑 瘤 效 果 有 差别 ; 同 理 , 不 同 区 组 间 也 有 差别 。 


Univariate Analysis of Variance 





Between-Subjects Factors 





Q ow UC UC U tA tà tj Z 





Q + Q S — G =Z > 


(a) 
Tests of Between-Subjects Effects 


Dependent Variable: weight 


| — Sore || Type II Sum of Squares df Mean Square F Sig. 


Corrected Model 

















a. R Squared = .857 (Adjusted R Squared = .749) 
一 (b) 


结果 19-1 方差 分 析 结 果 


方差 分 析 结 果 19-2 表明 , 三 组 总 体 均 数 间 不 全 相等 , 尚 需 进行 三 个 均 数 间 的 多 重 比较 ， 

以 上 分 别 是 多 重 比较 的 LSD 法 、Bonferroni 法 和 SNK 法 分 析 结 果 。 三 种 多 重 比较 方法 的 
结果 表明 : A AMBA, C 药 间 抑 癌 效 果 的 差别 有 统计 学 意义 ， 即 A 药 效果 不 如 后 两 者 的 
明显 ; Wu B 药 和 C 药 间 抑 癌 效 果 的 差别 无 统计 学 意义 ， 即 两 药 的 抑 瘤 效 果 相 当 。 

Estimated Marginal Means 

drug 

Estimates 

Dependent Variable: weight 

95% Confidence Interval 
Lower Bound Upper Bound 





Std. Error 


.513 .715 
.333 .535 
213 415 





(a) 


结果 19-2 方差 分 析 结 果 
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Post Hoc Tests 

drug 

Multiple Comparisons 
Dependent Variable: weight 


Mean Difference . 95% Confidence Interval 
(D) drug (J) drug . 
(E-J) Lower Bound Upper Bound 


Bonferroni 














o» O > GO ÇZ m >p GO > G m 





Based on observed means. 
* The mean difference is significant at the .05 level. 
(b) 
Homogeneous Subsets 








Means for groups in homogeneous subsets are displayed. 


Based on Type IH Sum of Squares 
The error term is Mean Square(Error) = .010. 
a. Uses Harmonic Mean Sample Size = 5.000. 
b. Alpha = .05. 
(c) 


结果 19-2 (È) 


19.2” 析 因 设计 及 其 方差 分 析 


19.2.1 概述 


在 医学 研究 中 ， 许 多 研究 因素 之 间 往 往 是 相互 联系 ， 相 互 制 约 的 。 当 一 个 因素 的 质 或 
量 有 改变 时 ， 其 他 因素 的 质 或 量 也 会 随 之 改变 。 当 几 个 因素 间 存 在 交互 作用 时 ， 析 因 设 计 
是 一 种 非常 理想 的 设计 。 析 因 设 计 〈Factorial Design) 是 将 两 个 或 多 个 因素 的 各 个 水 平 进 
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行 全 面 组 合 、 交 叉 分 组 地 设计 ， 用 于 分 析 各 因素 之 间 的 交互 作用 ， 比 较 各 因素 不 同 水 平 的 
平均 效应 和 因素 间 不 同 水 平 组 合 下 的 平均 效应 。 以 2x2 析 因 设计 〔 它 是 指 有 两 个 因素 ， 
且 每 个 因素 有 两 个 水 平 的 设计 ) 为 例 ， 它 不 仅 可 以 检验 两 个 因素 各 水 平 之 间 的 差异 有 无 统 
计 学 意义 ， 而 且 可 以 同时 检验 两 个 因素 间 的 交互 作用 。 

在 析 因 设计 的 方差 分 析 中 ， 首 先 应 当 重 点 考察 各 因素 间 是 否 存 在 交互 作用 ， 如 果 存 在 
交互 作用 ， 此 时 各 因素 的 主 效应 检验 结果 已 无 实际 意义 ， 应 当 按 各 因素 各 种 水 平 的 组 合 来 
分 析 其 单独 效应 。 


19.2.2 ”实例 与 操作 

1. 实例 描述 | 

将 20 只 家 免 随机 等 分 为 4 组 ,每 组 5 只 , 进行 神经 损伤 后 的 缝合 试验 。 
处 理由 两 个 因素 组 合 而 成 ，A 因素 为 颖 合 方法 ， 有 两 水 平 ， 一 水 平 为 外 膜 颖 合 ， 记 作 a» 
另 一 水 平 为 束 膜 缝合 ， 记 作 as B 因素 为 缝合 后 的 时 间 ， 有 两 水 平 ， 一 水 平 为 缝合 后 1 月 ， 
记 作 bp， 另 一 水 平 为 缝合 后 2 月 ， 记 作 bs。 实 验 结果 为 家 免 神 经 缝合 后 的 轴 突 通过 率 (%) 
GE: 测量 指标 , 视 为 计量 资料 ), 数据 见 表 19-2 ( 见 数据 文件 data19-2.xls 或 data19-2.sav)。 


表 19-2 ”家 免 神经 缝合 后 的 轴 突 通过 率 (%) 


A (缝合 方法 ) 外 膜 缝 合 (aD RRRA (aD 
B 缝合 后 时 间 ) 1H b) 2H (h) 1H Gp 2H (b) 
10 30 10 50 
10 30 20 50 
40 70 30 70 
50 60 50 60 
10 30 30 30 
均 数 24 44 28 52 


用 单 因 素 方差 分 析 模 型 考虑 各 单元 格 间 的 方差 齐 性 ， 见 结果 19-3。 


Test of Homogeneity of Variances 


Rate: 


Levene 
Statistic dfl df2 


结果 19-3 Test of Homogeneity Variances 信息 


Levene 统计 量 为 1.219，P=0.33$>0.05， 可 以 认为 各 单元 格 的 总 体 方 差 齐 ， 可 以 采用 
方差 分 析 模 型 进行 统计 分 析 。 
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19-3 ”绘制 效应 图 


3. 结果 解释 

从 方差 分 析 结 果 19-4 可 见 : A 因素 (缝合 方法 ) 的 主 效应 (==0.600,Sig. 二 0.450>0.05) 
和 两 个 因素 间 交 互 作用 〈F 王 0.067，Sig.=0.800>0.05)， 均 不 具有 统计 学 意义 ， 仅 B 因素 
(缝合 后 时 间 〉 的 主 效应 有 统计 学 意义 (F=8.067,Sig.—=0.012<0.05), 

交互 作用 示意 图 (边际 均 数 轮廓 图 ) 如 图 19-4 所 示 。 

对 数据 表 中 的 4 个 均 数 做 轮廓 图 (Profile Plot)， 结 果 得 到 两 条 几乎 相互 平行 的 直线 ， 
表示 该 研究 两 因素 交互 作用 很 小 。 反 之 ， 若 得 到 两 条 相互 不 平行 的 直线 ， 则 说 明 两 因素 可 
能 存在 交互 作用 ， 经 假设 检验 可 得 以 证 实 。 
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Univariate Analysis of Variance 
Between-Subjects Factors 





Dependent Variable: rate 


Type III Sum of 
Source Squares 


Corrected Model 2620.000* 873.333 
Intercept 27380.000 27380.000 
a 180.000 180.000 
b 2420.000 2420.000 
a*b 20.000 20.000 
Error 4800.000 300.000 
Total 34800.000 
Corrected Total 7420.000 


a. R Squared = .353 (Adjusted R Squared = .232) 

















(b) 


结果 19-4 ”方差 分 析 结 果 


Estimated Marginal Means 
es coco pt ooo 





图 19-4 边际 均 数 轮廓 图 


结论 : 尚 不 能 认为 两 种 缝合 方法 对 神经 轴 突 通过 率 有 影响 ， 以 及 两 个 因素 间 存 在 交互 
作用 ; 可 以 认为 缝合 后 2 月 与 1 月 相 比 ， 神 经 轴 突 通过 率 提高 了 。 


19.3 ” 族 套 设计 及 其 方差 分 析 


19.3.1 概述 


Eiti (Nested Design). 又 称 窝 设 计 或 套 设计 ， 与 析 因 设计 不 同 的 是 ， 峰 套 设计 的 
处 理 不 是 各 因素 各 水 平 的 全 面 组 合 ， 而 是 各 因素 按 其 隶属 关系 系统 分 组 ， 各 因素 水 平 没 有 
交 又 。 也 就 是 说 ， 在 幅 套 设计 中 ， 各 个 研究 因素 的 影响 有 主 次 之 分 ， 而 次 要 因素 的 各 个 水 
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平 是 艇 套 在 主要 因素 水 平 下 的 ， 因 而 在 统计 分 析 时 不 能 分 析 它 们 之 间 的 交互 作用 。 如 在 两 
因素 的 嵌 套 设计 中 ， 可 按照 因素 的 隶属 关系 ， 称 两 因素 分 别 为 一 级 处 理 因 素 和 二 级 处 理 因 
素 ; 更 多 因素 的 艇 套 设 计 ， 因 素 间 的 隶属 关系 依 此 类 推 。 研 究 的 处 理 组 数 为 最 低级 别处 理 
因素 水 平 数 的 合计 。 

嵌 套 设计 的 特点 是 ， 在 设计 时 将 已 知 的 主要 影响 因素 优先 安排 。 因 此 ， 在 分 析 时 也 应 
当 考 虑 到 影响 因素 的 主 次 之 分 ， 按 照 嵌 套 设 计 的 方差 分 析 模 型 来 进行 分 析 ， 体 现 出 藤 套 设 
计 的 优越 性 。 


19.3.2 ”实例 与 操作 

1. 实例 描述 

试验 甲 、 乙 、 丙 三 种 催化 剂 在 不 同 温度 下 对 某 化 合 物 的 转化 作用 。 由 
于 各 催化 剂 所 要 求 的 温度 范围 不 同 , 将 催化 剂 作为 一 级 试验 因素 , 温度 作为 二 级 试验 因素 ， 
采用 藤 套 设计 ， 每 个 处 理 重 复 2 次 试验 ， 结 果 见 表 19-3〈 见 数据 文件 datal9-3.xls 或 
data19-3.sav )。 试 做 方差 分 析 。 


表 19-3 化合 物 的 转化 率 (%) 





催化 剂 甲 乙 Wi 
温度 (C) 70 80 90 55 65 75 90 95 100 
转化 率 (%) 82 91 85 65 62 56 71 75 85 
88 83 61 59 60 67 78 89 
2. GLM 过 程 的 操作 提示 
Analyze 
General Linear Model 
Univariate 
* 操作 提示 
-rate ^ P| Dependent Variable “= 要 分 析 的 应 变量 
activator 加 | Fixed Factor[s] 号 作为 自 变 量 考虑 
temp P>] Fixed Factor[s] - : 
Model... = XZ Z 2148 8 
Custom =k Ë Z X 7 Z 2-4 3 38 


"activator P] Model 

temp P] Model 

-Build Term[s] [V] Main effects SAM PRAAK 5 
Continue 

Paste SHIPRA o COLS 19-5) 


将 Design 子 句 更 改 为 我 们 所 需要 的 嵌 套 模型 (如 图 19-6 所 示 )。 


yntaxl - SPSS Syntan Editor 


L | 9) 
UNIANOVA 

rate BY activator temp, 

/METHOD = SSTYPE(3) 

/INTERCEPT = INCLUDE 

/CRITERIA = ALPHA(.05) 

/DESIGN = activator temp (acc ivator)| . 


UNIANOVA 


rate BY activator temp 
/METHOD = SSTYPE(3) 
/INTERCEPT = INCLUDE 
/CRITERIA = ALPHA(.05) 
/DESIGN = activator temp . 





图 19-5 程序 编辑 窗口 
a 操作 提示 


s 
capo ug 
. 结果 解释 

从 方差 分 析 结 果 19-5 可 见 : 催化 剂 的 主 效应 有 统计 学 意义 (F=177.818，P==0.001)， 
隶属 于 催化 剂 的 二 级 因素 温度 的 主 效应 也 有 统计 学 意义 (F=12.152, P =0.001)。 


Univariate Analysis of Variance 
Between-Subjects Factors 








(a) 
Tests of Between-Subjects Effects 
Dependent Variable: rate 


| Source — | Type HI Sum of Squares 
Corrected Model 2357.000° 
Intercept 99904.500 
activator 1956.000 
temp(activator) 401.000 
Error 49.500 
Total 102311.000 
Corrected Total 2406.500 
a. R Squared = .979 (Adjusted R Squared = .961) 




















z 568 
18164.455 

177.818 
12.152 

















(b) 
结果 19-5 ”方差 分 析 结果 
结论 : 催化 剂 影响 该 化 合 物 的 转化 率 , 对 于 同一 种 催化 剂 , 不 同 温度 下 转化 率 也 不 同 
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19.4 交叉 设计 及 其 方差 分 析 


19.4.1 概述 


交叉 设计 (Cross-over Design) 是 一 种 特殊 的 自身 对 照 设计 ， 让 各 研究 对 象 分 几 个 阶 
段 ， 按 随机 分 配 的 顺序 交叉 地 接受 几 种 处 理 。 本 章 以 完全 随机 设计 方法 安排 研究 对 象 的 平 
衡 的 两 阶段 交叉 设计 为 例 , 当然 也 可 以 有 多 个 阶段 , 或 者 按照 随机 区 组 设计 安排 研究 对 象 。 
在 医学 研究 中 ， 欲 将 A. B 两 种 处 理 先后 施加 于 同一 批 研究 对 象 ， 随 机 地 使 半数 受 试 者 先 
接受 A 后 接受 了 B， 而 另 一 半 受 试 者 则 正好 相反 ， 即 先 接受 B 再 接受 A. A. B 两 种 处 理 先 
后 以 同等 的 机 会 交叉 出 现在 两 个 研究 阶段 中 ， 故 称 作 两 阶段 交叉 设计 。 

交叉 设计 的 数据 统计 处 理 采 用 方差 分 析 法 。 所 观察 到 数据 的 变异 包括 : 处 理 效应 、 阶 
段 效应 、 上 顺序 效应 和 研究 对 象 的 个 体 差 异 。 其 中 ， 处 理 效应 是 希望 研究 的 主要 因素 ， 个体 
差异 和 阶段 效应 是 影响 研究 结果 的 因素 ;而 顺序 效应 是 交叉 设计 能 够 实施 的 前 提 条 件 ， 在 
方差 分 析 中 不 予 考虑 。 保 证 顺序 效应 可 以 被 忽略 的 办 法 是 ， 有 必要 在 两 个 阶段 间 设 一 个 洗 
脱 《Wash Out) 阶段 ， 以 消除 上 一 个 阶段 残留 效应 的 影响 。 


19.4.2 ”实例 与 操作 


1. 实例 描述 

表 19-4 ( 见 数据 文件 data19-4.xls 或 datal9-4.sav) 是 A. B 两 种 闪烁 
液 测定 血浆 中 "H-cGMP 的 交叉 试验 结果 。 第 I 阶段 1, 3, 4, 7, 9 号 用 A 液 测定 ，2, 5, 6, 8, 10 
号 用 B 液 测定 ， 第 I 阶段 1, 3, 4, 7, 9 号 用 B 液 测定 ，2, 5, 6, 8, 10 号 用 A 液 测定 。 试 对 交 
叉 试验 结果 进行 方差 分 析 。 


表 19-4 ”两 种 闪烁 液 测定 血浆 中 3H-cGMP 的 交叉 试验 结果 


受 试 者 5 B 
I II 
1 A(760) B(770) 
2 B(860) A(855) 
3 A(568) B(602) 
4 A(780) B(800) 
5 B(960) A(958) 
6 B(940) A(952) 
7 A(635) B(650) 
8 B(440) A(450) 
9 A(528) B(530) 
10 B(800) A(803) 
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2. GLM 过 程 的 操作 提示 








3. 结果 解释 f 

从 方差 分 析 结 果 19-6 可 见 : A 和 了 B 两 种 闪烁 液 的 测定 结果 的 差异 没有 统计 学 意义 (F 
三 4.019，P=0.080>0.05)， 而 测定 阶段 的 效应 有 统计 学 意义 (F=9.925, P=0.014<0.05), 
受 试 者 的 个 体 差异 也 有 统计 学 意义 (F=1240.195, Sig. 0.0000. 


Univariate Analysis of Variance 





1 
2 
A 
B 
1 
2 
3 
4 
5 
6 
7 
8 
9 
10 


t2 t2 t2 PO PO t2 [P2 P2 P2 tS 


(a) 


结果 19-6 方差 分 析 结 果 
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Tests of Between-Subjects Effects 


Dependent Variable: value 


Source 


Intercept Hypothesis 















Type HI S f 
Squares 


10717944.050 10717944.050 175.031 
551111.450 61234.606° 
490.050 490.050 
395.000 49.375° 


















phase 9.925 
















@ AQ OO — @ =e X = 


liquid 198.450 198.45° 4.019 
395.000 49.375° 

object 551111.450 61234.606 1240.195 
395.000 49.375° 














a. MS(object) 
b. MS(Error) 


(b) 
Expected Mean Squares™ 


Variance Component 





Var(object) Var(Error) Quadratic Term 
Intercept . E Intercept, phase, liquid 
phase R 。 phase 


liquid : : liquid 


object 


Error 











a. For each source, the expected mean square equals the sum of the coefficients in the cells times the variance 
components, plus a quadratic term involving effects in the Quadratic Term cell. 
b. Expected Mean Squares are based on the Type IH Sums of Squares. 
(c) 


结果 196 (5D 
结论 : OD 还 不 能 认为 两 种 闪烁 液 的 测定 结果 有 差别 。 
@ 可 以 认为 测定 阶段 对 测定 结果 有 影响 。 
@ 可 以 认为 各 受 试 者 的 H-cGMP 值 不 同 。 


注意 : 交 又 设计 主要 关心 处 理 因素 间 的 差别 ， 阶 段 效应 和 个 体 差异 通常 
是 已 知 的 、 可 以 控制 的 因素 。 
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第 20 章 ”重复 测量 与 混合 效应 模型 





在 社会 、 医 学 及 心理 学 研究 中 ， 有 许多 数据 呈现 层次 结构 (Hierarchical Structure), 
例如 ， 学 生 骨 套 于 班级 ， 班 级 嵌 套 于 学 校 ， 学 校 灵 套 于 地 区 ; 消费 者 人 套 于 家 庭 ， 家 庭 嵌 
套 于 小 区 ， 等 等 。 再 比如 ， 在 一 些 重复 测量 数据 中 ， 各 时 间 点 妃 套 于 个 体 。 由 于 这 种 数据 
间 不 能 够 满足 普通 线性 模型 或 方差 分 析 的 独立 性 假设 ， 所 以 又 称 为 非 独立 数据 。 这 类 数据 
非常 广泛 ， 本 章 主要 介绍 常见 的 平衡 与 不 平衡 重复 测量 数据 的 重复 测量 (Repeated 
Measures) 分 析 〈 在 GLM 中 ) 与 混合 模型 (Mixed Models) 分 析 方 法 ， 以 及 呈 层 次 结构 
特征 的 抽样 调查 数据 的 混合 模型 分 析 方 法 。 


20.1 ”重复 测量 方差 分 析 


重复 测量 资料 是 指 对 同一 受 试 对 象 的 某 项 观测 指标 进行 多 次 测量 所 得 到 的 数据 。 如 对 
病人 治疗 (或 手术 ) 后 一 天 、 三 天 、 一 周 、 二 周 等 多 个 时 间 点 进行 连续 观察 ;教育 研究 中 
观察 不 同学 期 学 生 的 成 绩 变化 情况 ; 心理 研究 中 观察 不 同时 间 段 个 体 的 心理 调适 能 力 ; 经 
济 领 域 中 研究 市 场 的 动态 ， 等 等 。 重 复 测量 设计 的 数据 分 析 若 采用 前 述 的 普通 方差 分 析 方 
法 ， 同 样 需要 满足 独立 、 正 态 、 等 方差 的 前 提 假 设 。 可 实际 情况 是 ， 重 复 测量 观测 值 来 自 
同一 受 试 对 象 的 不 同时 点 ， 不 能 完全 满足 以 上 各 项 前 提 假 设 条 件 。 

独立 性 ， 由 于 数据 间 相 关 性 的 存在 ， 违 背 了 方差 分 析 要 求 数据 满足 “独立 性 ”的 基本 
条 件 。 在 这 种 情况 下 ， 若 使 用 一 般 的 方差 分 析 方 法 ， 将 会 增 大 犯 1 类 错误 的 概率 。 

等 方差 性 :对 于 重复 测量 数据 ， 另 外 一 个 前 提 假 设 一 一 方差 齐 性 ， 要 求 各 时 间 点 测量 
值 的 方差 相等 ， 即 独立 结构 相关 系数 相对 应 的 协 方差 矩阵 为 球 对 称 〈(Sphericity ) 结构 。 在 
生物 、 社 会 ， 尤 其 是 行为 、 心 理 领 域 较 少 有 满足 球形 条 件 的 重复 测量 数据 。 这 种 前 提 条 件 
的 破坏 直接 影响 到 分 析 结 果 ; 但 幸运 的 是 ， 目 前 可 以 采用 调整 自由 度 的 方法 或 多 变量 分 析 
的 办 法 来 解决 方差 不 等 问题 。 球 对 称 假 设 的 检验 可 以 采用 Mauchly 检验 、Box 检验 、 
Greenhouse-Geisser 检验 及 Huynh-Feldt 检验 。 





重复 测量 与 混合 效应 模型 BA 


正 态 性 :要求 重 复 测量 资料 必须 服从 正 态 分 布 。 数 据 是 否 服 从 正 态 分 布 ， 可 以 依据 经 
验 做 出 判断 ， 在 样本 含量 不 太 小 的 情况 下 ， 方 差分 析 对 即使 略 偏离 正 态 分 布 的 资料 ， 结 果 
也 较 稳 健 。 

实质 上 ， 重 复 测量 设计 并 非 单纯 的 一 种 设计 方法 ， 重 复 测量 可 以 出 现在 实验 设计 、 临 
床 试验 设计 及 调查 设计 中 ， 但 切 不 可 以 用 传统 的 分 析 方 法 ， 比 如 ， 最 简单 的 设计 类 型 类 似 
于 随机 区 组 设计 ， 不 可 采用 随机 区 组 设计 的 方差 分 析 。 重 复 测量 数据 的 方差 分 析 理 论 会 让 
非 统计 专业 的 科研 工作 者 望而却步 ， 但 采用 SPSS 软件 进行 分 析 却 是 如 饮 醒 柄 。 


20.1.1 分 层 随机 抽样 重复 测量 数据 


1. 实例 描述 

经 营 快餐 的 一 家 连锁 店 计划 改进 某 一 营业 品种 ， 提 出 了 3 种 方案 
(promotion )， 并 随机 选择 了 若干 个 市 场 (markets )， 每 个 市 场 有 多 个 网 点 (location)。 要 
求 在 每 个 市 场 只 能 销售 其 中 一 种 新 品种 ， 之 后 观察 记录 每 个 网 点 每 周 的 销售 量 (sales)， 
连续 观察 4 周 (week)。 其 他 因素 还 包括 市 场 规模 (mktsize)、 营 业 年 限 (ageloc)。 结 果 数 
据 如 表 20-1 所 示 ( 见 数据 文件 data20-1.xls 或 data20-1.sav )。 


表 20-1 重复 测量 数据 





市 场 编号 规模 网 点 Eg 方案 周 次 — Wem 

marketid mktsize locid ageloc promo week sales 
1 3 10 12 1 1 78.33 
1 3 10 12 1 2 69.28 
1 3 10 12 1 4 66.81 
1 3 11 了 1 3 69.16 
1 3 11 7 1 4 65.57 
1 3 16 18 2 1 64.20 
I 3 16 18 2 2 62.02 
1 3 16 18 2 3 64.59 
1 3 16 18 2 4 64.61 
1 3 17 18 3 1 59.51 
1 3 17 18 3 2 75.60 
1 3 17 18 3 3 68.97 
10 1 904 13 1 3 58.04 
10 1 904 13 1 4 46.82 

2. 数据 重 构 


表 20-1 提供 的 数据 是 数据 库 的 通用 格式 , 对 不 熟悉 数据 库 的 读者 来 说 , 可 能 从 中 体会 
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BEN 与 统计 分 析 —— 


不 到 重复 测量 。 另 外 ， 在 进行 重复 测量 数据 分 析 时 ， 需 要 对 数据 进行 重新 整理 ， 即 数据 重 
构 (Data Restructure)， 将 数据 转换 为 重复 测量 数据 所 要 求 的 格式 。 重 构 后 的 数据 如 表 20-2 
所 示 〈 见 数据 文件 data20-2.xls 或 data20-2.sav )。 


3 20-2 重 构 后 的 数据 库 格 式 


市 场 编号 规模 网 点 年 限 方案 销售 量 

第 1 周 第 2 周 第 3 周 第 4 周 

marketid mktsize locid ageloc promo Sale.1 Sale.2 Sale.3 Sale.4 
1 3 1 7 3 70.63 56.28 70.98 69.91 

1 3 2 11 2 68.42 56.74 60.04 63.64 

1 3 3 1 2 68.25 62.20 58.81 58.63 

1 3 4 6 2 59.18 62.41 62.04 67.58 

10 1 904 13 1 45.09 54.07 58.04 46.82 


表 20-2 为 数据 重 构 后 的 数据 。 比 较 表 20-1 与 表 20-2 可 见 , 共有 133 个 网 点 分 布 在 10 
个 市 场 ， 每 个 网 点 连续 4 周记 录 销 售 量 ， 所 以 表 20-1 共有 133X 4—532 个 销售 量 数据 值 。 
如 果 将 每 一 个 网 点 的 4 周记 录 销 售 量 放 在 一 行 ， 则 表 20-1 便 变 成 了 表 20-2。 

不 同市 场 的 快餐 连锁 店 某 品 种 3 种 改进 方案 下 的 营业 网 点 个 数 的 分 布 见 表 20-3。 由 此 
可 见 ， 不 同市 场 、 不 同方 案 下 的 网 点 数 不 等 ， 所 以 该 数据 为 不 平衡 数据 。 


表 20-3 ”不 同方 案 的 每 个 市 场 网 点 数 分 布 





方案 

市 场 编 号 1 2 3 合计 
1 4 7 10 21 
2 6 4 8 18 
3 6 4 5 15 
4 2 1 2 5 
5 8 8 7 23 
6 1 3 0 4 
7 4 4 1 9 
8 2 5 4 11 
9 6 11 6 23 
10 2 0 2 4 
合计 41 47 45 133 


重复 测量 与 混合 效应 模型 EHBINEA 


> 数据 重 构 操作 提示 (MB 20-1) 





20-1 数据 重 构 向 导 


3. GLM 过 程 的 操作 提示 

Analyze : de 

General Linear Model 

"BRepeated Measures... 
* 定义 重复 测量 操作 提示 ( 见 图 20-2) 

他 Within-Subject Factor Name: week 

Number of Levels: 4 — — 

"B Add 

“Measure Name: sales 

"B Add 

Define 
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图 20-2 定义 重复 测量 对 话 框 


> 重复 测量 主 对 话 框 操作 提示 ( 见 图 20-3 ) 






20-3 重复 测量 主 对 话 框 


当 模型 定义 对 话 框 操作 提示 ( 见 图 20-4 ) 


Model 
Sum of squares T 45] & 
Continue 
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一 定义 模型 ; 
号 选择 Type IV, Pp IV 型 平方 和 


重复 测量 与 混合 效应 模型 EHI 





图 20-4 重复 测量 的 模型 定义 对 话 框 


E iE. 
< e 可 以 定义 饱和 模型 (Full factorial) 或 自 定义 模型 ( Custom )。 饱 和 模 
型 包括 主 效应 和 所 有 的 交互 效应 ; 而 自 定 义 模型 可 以 根据 专业 需要 来 
选择 感 兴趣 的 交互 效应 。 
e 本 例 因 市 场 与 方案 分 层 后 ， 资 料 为 不 平衡 数据 ， 所 以 选择 Type IV, 
即 IV 型 平方 和 ( Sum of squares ). 对 于 一 般 教 科 书 上 常见 的 平衡 数据 ， 


则 选择 Type II。 要 注意 因 分 层 后 (Promo * Market ID) 出 现 空格 ， 
所 以 自由 度 也 随 之 减少 。 











x PIED AGREE ( 见 图 20-5) 
”Plots AUR sze 


Plots... 


week Dese. 7 M e 






Continue MEM REPOS S OR Co Ue QE cH TOS I 
a 重复 测量 选项 对 话 框 的 操作 提示 (MA 20-6) 

"DOptions ee 

DM Estimates of effect size | pr 显示 组 间 和 组 内 效应 

AMI SSCP matrices 一 显 示 平 方 和 阵 和 各 组 间 又 积 阵 

DM Homogeneity tests — | 一 等 方差 性 检验 

Continue ! y i f 

-OK — 3 AF55 3. 
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图 20-5 ”定义 重复 测量 边际 均 数 的 轮廓 图 20-6 重复 测量 选项 对 话 框 
以 上 是 重复 测量 设计 方差 分 析 的 必 选 项 ， 其 他 选项 的 含义 如 下 。 
Descriptive statistics 一 描述 统计 量 








-BObservedpower 一 误差 阵 的 球 对 称 检验 t 

JBParameterestimates — TOSS AG 及 标准 误 、 了 统计 量 、 XAERA 

JBResidual SSCP matrix — 称 检验 A 3428320632 WT AA 

“Transformation matrix - SN à s à : m 

-Spread vs. level plots. 一 幅度 水 平 图 SOSOPOETAEN 

"Residual plots “mz 

Lack of fit test — ge cc PEEN dispo Dp 4 «i 

General estimable function 一 在 固定 效应 前 提 下 ， 显 示 单 变量 (或 多 变量 ) 65 F 5 t 
检验 的 逼近 效率 值 - cta iiem 

4. 结果 解释 


SPSS 结果 输出 形式 可 以 选择 文本 格式 (TXT)、 网 页 格式 (HTM). RTF 格式 及 Word 
格式 ， 这 里 以 我 们 常用 的 Word 为 例 ， 结 果 输 出 操作 提示 如 下 : 

单 击 菜单 File 一 Export 一 File Type— Word/RTF file(.doc) 一 OK， 输 出 Word 格式 文档 。 
以 下 是 例 20-1 的 SPSS 统计 分 析 结 果 ( 见 结果 20-1 至 结果 20-9). 


General Linear Model 
Within-Subjects Factors 


Measure: sales 





结果 20-1 多 变量 方差 分 析 结 果 
534 | 





ESE ipe 2 em PMA 


Between-Subjects Factors 


Market ID 


1 
2 
3 
4 
5 
6 
7 
8 
9 


- 
e 


Promotion 





(b) 
Box's Test of Equality of Covariance Matrices? 


179513 


1.043 


120 
3687.015 
.357 
Tests the null hypothesis that the observed covariance matrices of the dependent variables are equal across groups. 





a. Design: Intercept+marketid+promo+marketid * promo Within Subjects Design: week 


(c? 
Multivariate Tests? 


[Eme — RT EN Perl En Sq 


Pillai's Trace 103.000 
Wilks' Lambda . + . 103.000 
Hotelling's Trace 4 ' : 103.000 
Roy's Largest Root . ` - 103.000 
week * marketid | Pillai's Trace ` - 4 315.000 
Wilks' Lambda - . : 301.455 
Hotelling's Trace . . . 305.000 
Roy's Largest Root . 2707 . 105.000 
week * promo Pillai's Trace < . Ë 208.000 
Wilks' Lambda ` . . 206.000 
Hotelling's Trace ` . . 204.000 
Roy's Largest Root - E 。 104.000 
week * marketid | Pillai's Trace ` . . 315.000 

* promo Wilks' Lambda + : . 307.142 
Hotelling's Trace ` : . 305.000 
Roy's Largest Root . . K 105.000 


























. Exact statistic 
. The Type IV testable hypothesis is not unique. 
. The statistic is an upper bound on F that yields a lower bound on the significance level. 


a G gd m 


. Design: Intercept-marketid--promo-marketid * promo Within Subjects Design: week 
g P g 
(D 


结果 20-1 (5D 
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与 统计 分 


结果 释疑 : 


以 上 是 多 变量 方差 分 析 的 结果 , 统计 量 由 SSCP 矩阵 计算 获得 , 结果 包含 了 4 种 检验 ， 
分 别 是 Pillai's B (Pillai's Trace? ~ Wilks'A (Wilks' Lambda) ~ Hotelling's 迹 ( Hotelling's Trace) 
和 Roy's 最 大 特征 根 (Roy's Largest Root) 。 
e Pillai's 3: 为 一 大 于 零 的 统计 量 ， 该 值 越 大 意味 着 该 效应 对 模型 贡献 越 大 。 
e WilksA: 界 于 0~1 之 间 的 统计 量 ， 该 值 越 小 ， 则 对 模型 贡献 越 大 。 
è Hotelling's 3: 检验 抢 阵 特征 根 的 和 ， 该 值 大 于 零 ， 越 大 表示 该 效应 对 模型 贡献 越 
大 。 该 值 一 般 总 略 大 于 Pillai's Trace， 当 检验 矩阵 的 特征 根 偏 小 时 ， 两 者 接近 ， 意 
味 着 该 效应 对 模型 无 贡献 。 
° Roy's 最 大 特征 根 : 检验 矩阵 的 最 大 特征 根 ， 大 于 零 ， 值 越 大 ， 对 模型 贡献 越 大 。 
该 值 一 般 总 小 于 或 等 于 Hotelling's Trace。 当 两 者 相等 时 ,表明 该 效应 主要 与 应 变量 
有 关 ， 应 变量 〈 销 售 量 ) 高 度 相关 或 者 该 效应 对 模型 贡献 不 大 。 
当 4 种 检验 结果 不 一 致 或 不 满足 模型 的 前 提 假 设 时 ，Pillai's Trace 的 结果 较 其 他 统计 
量 更 稳健 检验 统计 量 采 用 了 统计 量 。 
检验 结果 提示 : 除 week*marketid*promo 的 Roy's Largest Root 检验 外 ， 其 他 无 统计 学 
意义 。 但 Roy's Largest Root 的 结果 不 可 靠 ， 下 结论 时 应 慎重 。 


Mauchly's Test of Sphericity" 


Measure: sales 


Within Subjects May s Approx. Sig. Epsilon" 
Effect Chi-Square Greenhouse-Geisser Huynh-Feldt Lower-bound 








maru maran ua um 333 


Tests the null hypothesis that the error covariance matrix of the orthonormalized transformed dependent variables is proportional 
to an identity matrix. 
a. May be used to adjust the degrees of freedom for the averaged tests of significance. Corrected tests are displayed in the Tests of 
Within-Subjects Effects table. 
b. Design: Intercept4-marketid--promo-marketid * promo 
Within Subjects Design: week 


结果 20-2 Mauchly's 球 对 称 检验 结果 


结果 释疑 : 


前 提 假 设 要 求 应 变量 的 方差 协 方差 阵 呈 对 称 或 “球形 ” (spherical) 一 一 H 型 条 件 ， 
如 果 资 料 的 协 方差 矩阵 不 满足 H 条 件 ， 则 需 校正 系数 ， 用 它 来 对 相关 的 自由 度 做 校正 。 检 
验 办 法 采用 Mauchly's 球 对 称 检验 ， 在 此 我 们 不 去 关心 检验 的 过 程 ， 我 们 只 关注 检验 的 结 
果 。 实 例 结果 提示 ，P=0.032<0.05， 不 符合 前 提 假 设 ， 因 此 需 采 用 校正 系数 ，SPSS 提供 了 
3 种 校正 系数 HeRR, WE Epsilon). 
* Greenhouse-Geisser 校正 系数 : 取 值 在 (矩阵 维 数 -1 一 1 之 间 。 当 满足 球 对 称 时 ， 
e 为 最 大 ， 即 等 于 1， 离 球 对 称 假定 条 件 越 远 ，s 越 小 。 但 当真 值 在 0.7 以 上 时 ， 用 


536 | 





重复 测量 与 混合 效应 模型 PRATO 


该 系数 校正 后 统计 学 结论 偏 于 保守 。 另 外 ， 该 值 对 小 样本 资料 也 偏 保守 。 

è Huynh-Feldt 校正 系数 : 该 值 不 像 Greenhouse-Geisser 校正 系数 那样 过 于 保守 ， 但 该 
值 可 能 大 于 1， 当 取 值 大 于 1 时 ， 则 了 到 1。 

e Lower-bound 校正 系数 : 该 系数 是 三 者 中 最 保守 的 方法 。 


Tests of Within-Subjects Effects 
Measure: sales 


Type IV Sum of i . Partial Eta 
Source . 
Squares Squared 


Sphericity Assumed 163.341 54.447 
Greenhouse-Geisser 163.341 58.287 


Huynh-Feldt 163.341 : 54.447 
Lower-bound 163.341 ` 163.341 
week * marketid Sphericity Assumed 703.984° 26.073 
Greenhouse-Geisser 703.984° 27.912 
Huynh-Feldt 703.984° 26.073 
Lower-bound 703.984° 9.000 78.220 
week * promo Sphericity Assumed 134.762° 6 22.460 


Greenhouse-Geisser 134.762* 5.605 24.044 
Huynh-Feldt 134.762" 6.000 22.460 
Lower-bound 134.762^ 2.000 67.381 
week * marketid Sphericity Assumed 1624.297 48 33.840 
* promo Greenhouse-Geisser 1624.297 44.838 36.226 
Huynh-Feldt 1624.297 48.000 33.840 
Lower-bound 1624.297 16.000 101.519 
Error(week) Sphericity Assumed 9536.287 315 30.274 
Greenhouse-Geisser 9536.287 294.248 32.409 
Huynh-Feldt 9536.287 315.000 30.274 
Lower-bound 9536.287 105.000 90.822 




















a. The Type IV testable hypothesis is not unique. 


结果 20-3 ”重复 测量 单 因素 的 分 析 结果 


结果 释疑 : 


这 是 重复 测量 单 因素 的 分 析 结果 ， 从 中 我 们 可 以 看 到 校正 系数 在 统计 量 中 发 挥 的 作 
用 。 以 week 为 例 ,假如 模型 符合 前 提 假 设 , 即 数据 满足 “ 球 对 称 ” (Sphericity Assumed) , 
则 自由 度 无 需 校正 ， 仍 然 为 3。 我 们 已 经 知道 ，Mauchlys T 检验 提示 需 校正 ， 
Greenhouse-Geisser, Huynh-Feldt 与 Lower-bound 的 校正 系数 依次 是 0.934, 1.00, 0.333， 校 
正 后 的 自由 度 依次 是 2.802 (0.934*3) , 3.000 (1.00*3) , 1.000 (0.333*3) 。 

再 看 检验 结果 , 严 值 相同 , 而 P 值 不 等 , Greenhouse-Geisser 的 结果 相对 保守 (P=0.151)， 
Lower-bound 的 结果 最 保守 (P=0.183) 。 

P 值 结果 提示 , 无 论 是 “week” 的 主 效应 还 是 其 他 交互 效应 都 无 统计 学 意义 ; Partial Eta 
Squared 的 结果 提示 ， 各 项 对 模型 的 贡献 很 小 。 
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Tests of Within-Subjects Contrasts 


Measure: sales 


week "Type IV Sum of Squares ig. | Partial Eta Squared 


Linear 68.112 

Quadratic 32.154 

Cubic 63.075 
week * marketid Linear 123.224* 
Quadratic 320.267* 

Cubic 260.493* 
week * promo Linear 3.572 
Quadratic 68.715* 
Cubic 62.475* 

week * marketid * promo Linear 234.148 
Quadratic 400.964 

Cubic 989.186 

Error(week) Linear 2232.956 
Quadratic 3305.203 

Cubic 3998.129 

a. The Type IV testable hypothesis is not unique. 


结果 20-4 重复 测量 资料 随时 间 的 变化 趋势 


N N N ‘OO D Ome- 




















结果 释疑 : 


结果 20-4 提供 了 重复 测量 资料 随时 间 的 变化 趋势 (Trend) ， 方 法 采用 了 多 项 式 函 数 
(Polynomial Function) ， 包 括 线性 (Linea) 、 二 阶 〈Quadratic) 和 三 阶 〈Cubic) 多 项 式 模 
型 。 

由 前 面 的 分 析 结果 已 知 ， 模 型 于 week 及 其 相关 的 交互 效应 无 统计 学 意义 ， 所 以 就 其 
变化 趋势 的 分 析 结 果 来 看 不 会 出 现 有 统计 学 意义 。 但 这 并 不 意味 着 在 各 Market 都 没有 意 
义 ， 这 时 考察 后 面 将 要 提 到 的 轮廓 分 析 (Profile Analysis) 结果 ， 也 许 对 我 们 更 有 价值 。 


Levene's Test of Equality of Error Variances" 





sales.1: Units sold in thousands 


sales.2: Units sold in thousands 


sales.3: Units sold in thousands 











sales.4: Units sold in thousands 





Tests the null hypothesis that the error variance of the dependent variable is equal across groups. 
a. Design: Interceptymarketid- promo-marketid * promo Within Subjects Design: week 


结果 20-5 fü: 25 PERO UR 6k H: 


结果 释疑 


结果 20-5 提供 了 组 间 等 方差 性 检验 (方差 齐 同性 检验 ) 结果 ， 对 于 熟悉 或 基本 熟悉 统 
计 学 的 读者 ， 对 此 不 应 该 陌生 ， 在 此 不 再 袭 述 。 








重复 测量 与 混合 效应 模型 EGEIDEG 


Tests of Between-Subjects Effects 


Measure: Sales 


` Transformed Variable: Average 


Intercept 888161.056 888161.056 35771.431 
Marketid 19721.223* 2191.247 88.254 


Promo 5622.897* 2811.448 113.233 
marketid * promo 571.884 36.118 1.455 
Error 2607.022 24.829 





a. The Type IV testable hypothesis is not unique. 


结果 20-6 ”各 组 间 效 应 的 检验 


结果 释疑 


以 上 结果 是 最 主要 的 结果 。 但 从 统计 角度 来 讲 ， 前 面 的 结果 不 仅仅 是 铺垫 ， 它 涉及 到 
模型 的 前 提 和 适用 性 。 

该 结果 提示 : marketid 和 promo 两 个 因素 都 具有 统计 学 意义 ，Partial Eta Squared 的 结 
果 显 示 marketid 和 promo 对 模型 的 贡献 分 别 达到 了 88.3% 和 68.3%。 两 者 的 交互 作用 无 统 
计 学 意义 ， 建 议 将 该 效应 从 模型 中 剔除 。 

正如 普通 方差 分 析 一 样 , 该 结果 不 能 提供 在 各 个 市 场 间 及 各 方案 间 是 否 有 差别 , 因此 ， 
在 此 基础 上 还 需 进 一 步 考虑 多 重 比较 的 问题 。 


Within-Subjects SSCP Matrix 


week 


Linear Quadratic Cubic 

Hypothesis Intercept Linear 68.112 -46.798 -65.545 
Quadratic -46.798 32.154 45.034 

Cubic -65.545 45.034 63.075 

marketid Linear 123.224 .755 -77.768 
Quadratic 455 320.267 65.502 

Cubic -71.768 65.502 260.493 

Linear 3.572 13.789 9.615 

Quadratic 13.789 68.715 13.314 

Cubic 9.615 13.314 62.475 

marketid * promo Linear 234.148 -.065 -142.181 
Quadratic -.065 400.964 -103.383 

Cubic -142.181 -103.383 989.186 

Linear 2232.956 -338.165 391.898 

Quadratic -338.165 3305.203 -100.125 

Cubic 391.898 -100.125 3998.129 











Based on Type IV Sum of Squares 


(a) 


结果 20-7. 基于 TV 型 平方 和 的 组 内 和 组 间 的 SSCP 矩阵 





与 统计 分 


Between-Subjects SSCP Matrix 


Hypothesis ]ntercept 888161.056 
marketid 19721.223 


promo 5622.897 
marketid * promo 577.884 
2607.022 





Based on Type IV Sum of Squares 
(b) 


结果 20-7 CÈ) 


结果 释疑 

结果 20-7 (a) 和 (b) 分 别 是 基于 IV. 型 平方 和 的 组 内 和 组 间 的 SSCP 和 矩阵， 分 别 对 
应 于 测量 时 间 主 效应 及 其 与 两 个 影响 因素 的 交互 效应 的 3x3 组 内 SSCP 矩阵 ,以 及 marketid 
与 promo 的 主 效应 及 其 交互 效应 的 组 间 SSCP 矩阵 。 



































Profile Plots 
Estimated Marginal Means of sales Estimated Marginal Means of sales 
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结果 20-8 ”轮廓 图 


结果 释疑 

轮廓 分 析 是 对 重复 测量 资料 边际 均 数 的 大 致 描述 ， 通 过 轮廓 图 可 以 对 相关 效应 在 时 间 
上 的 变化 趋势 有 一 个 直观 的 认识 。 结 果 20-8 提示 ， 第 一 种 方案 可 以 认为 是 最 佳 方案 ， 而 从 
销售 市 场 来 看 ， 第 一 个 市 场 业 绩 最 好 ， 可 以 推荐 其 好 的 营销 模式 。 


重复 测量 与 混合 效应 模型 EHI 


Homogeneous Subsets 
Multiple Comparisons 
Measure: sales 































Mean Difference(LJ) | Std. Error | Sig. RE 0 noe Tatera 
Lower Bound Upper Bound 
LSD 1 2 9.2686* 8.2129 10.3242 
3 2.0882* .53790 .000 1.0217 3.1548 
2 1 -9.2686* .53241 .000 -10.3242 -8.2129 
3 -7.1803* .51962 .000 -8.2106 -6.1500 
3 1 -2.0882* .53790 .000 -3.1548 -1.0217 
2 7.1803* 6.1500 8.2106 
Based on observed means. 


* The mean difference is significant at the .05 level. 









Subset 
N 1 2 3 
47 46.6835 
45 53.8638 
4l 55.9521 
1.000 1.000 1.000 


(b) 
结果 20-9 多 重 比较 的 结果 
相信 大 家 对 这 个 结果 并 不 陌生 ， 该 结果 与 前 面 方差 分 析 的 多 重 比较 结果 的 解释 相同 。 


结果 提示 ， 三 种 方案 销售 量 有 所 不 同 。 由 均 数 绝对 值 大 小 可 见 ， 其 中 第 一 种 方案 最 好 ， 这 
与 轮廓 分 析 的 结果 相 一 致 。 


20.1.2. 重复 测量 设计 临床 试验 数据 


 — 

在 一 项 对 酒 厂 工 人 的 临床 试验 研究 中 ， 定 期 测量 患者 的 甘油 三 酸 脂 
tgl, tg2, tg3, tg4) 与 体重 (wgt0, wgtl, wgt2, wgt3, wgt4)， 观 察 药物 疗效 ， 数 据 
如 表 20-4 所 示 〔〈 见 数据 文件 data20-3.xls 或 data20-3.sav )。 

2. GLM 过 程 的 操作 提示 
d 指定 重复 测量 过 程 操 作 提 示 


Analyze 
General Linear Model 
Repeated Measures... 








Means for groups in homogeneous subsets are displayed. 
Based on Type IV Sum of Squares 

The error term is Mean Square(Error) = 6.207 

a. Uses Harmonic Mean Sample Size = 44.190 

b. Alpha = .05 
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表 20-4 ”临床 试验 研究 数据 





编号 年 龄 性 别 甘油 三 酸 脂 (mg/100 ml) fk E (pound) 
patid age gender tg0 tgl tg2 tg3 tg4 wgtO wgtl wgt2 wgt3 wgt4 
1 45 0 180 148 106 113 100 198 196 193 188 192 
2 56 0 139 94 119 75 %2 23 233 22 — 228 225 
3 50 0 152 185 8 19 18 23 231 229 228 226 
4 46 1 112 145 16 149 82 179 181 177 174 172 
5 64 0 156 104 15 79 9 219 217 215 213 214 
6 49 1 167 138 88 107 171 169 166 165 162 161 
7 63 0 18 132 146 143 12 22 219 215 215 210 
8 63 1 160 128 10 118 123 167 167 166 162 161 
9 52 0 107 120 129 195 174 199 200 196 196 193 
10 45 0 156 10 126 135 (9 233 229 229 229 226 
" 61 1 94 144 114 114 101 179 181 176 173 173 
12 49 1 107 93 156 148 150 158 153 155 155 154 
13 61 1 145 10 129 86 159 157 151 150 145 143 
14 59 0 186 142 128 122 101 216 213 210 210 206 
15 52 0 112 — 107 10 89 18 257 255 254 252 249 
16 60 1 104 103 117 79 130 15l 146 144 144 140 
s= at 
定义 重复 测量 操作 提示 

J&Within-Subject Factor Name: week 一 定义 重复 测量 的 时 间 变 量 名 

“Number of Levels: 5 一 输入 重复 次 数 

Add 

Measure Name: WGT 号 定义 观察 变量 

Add 

Define 


重复 测量 主 对 话 框 操 作 提 示 
` “S Within-Subjects Variables ”一 输入 重复 测量 名 wgt.1, wgt.2, wgt.3, wgt.4, wgt.5 
> 模型 定义 对 话 框 操作 提示 ( 见 图 20-4) 


Model 号 定义 模型 
“Sum of squares 下 拉 列 表 一 选择 Type M 
Continue 
> 重复 测量 选项 对 话 框 的 操作 提示 (ME 20-6) 
“Options 
[ZE Estimates of effect size 全 效应 估计 ， 显 示 组 间 和 组 内 效应 
AM Homogeneity tests = 2 žhe 
“Continue 
OK 号 操作 结束 
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重复 测量 与 混合 效应 模型 ENMIUNSE 


3. 结果 解释 〈 见 结果 20-10) 


Multivariate Tests" 














F Hypothesisdf | — Emordt | sg | 
^ 4.000 R 





time Pillai's Trace 
Wilks' Lambda 
Hotelling's Trace 
Roy's Largest Root 










a. Exact statistic 
b. Design: Intercept 
Within Subjects Design: time 


(a) 


Mauchly's Test of Sphericity" 


Measure: wgt 
Epsilon* 
Mauchlys W | Approx.Chi-Square | df | Sig. psi on 
Greenhouse-Geisser | Huynh-Feldt | Lower-bound 


Within Subjects 
Effect 
| m | 2 | u ll = T TL 
Tests the null hypothesis that the error covariance matrix of the orthonormalized transformed dependent variables is proportional 
to an identity matrix. 











a. May be used to adjust the degrees of freedom for the averaged tests of significance. Corrected tests are displayed in the Tests of 
Within-Subjects Effects table. 
b. Design: Intercept 
Within Subjects Design: time 
(b) 
Tests of Within-Subjects Effects 
Measure: wgt 


CEE 


Sphericity Assumed 648.950 162.238 
Greenhouse-Geisser 648.950 209.541 
Huynh-Feldt 648.950 162.441 
Lower-bound 648.950 R 648.950 


Sphericity Assumed 157.850 2.631 
Greenhouse-Geisser 157.850 3.398 
Huynh-Feldt 157.850 2.634 
Lower-bound 157.850 10.523 

















Tests of Within-Subjects Contrasts 
Measure: wgt 


Type HI Sum of 


Squares 


Linear 145.134 
Quadratic . ` .601 
Cubic - ` .002 
Order 4 
Error(time) Linear 
Quadratic 
Cubic 
Order 4 




















(d) 
结果 20-10 SPSS 统计 分 析 结 果 
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EI 8 


Tests of Between-Subjects Effects 
Measure: wgt 
Transformed Variable: Average 


| Source | Type III Sum of Squares Mean | MeanSqae — | 
Intercept 3017479.613 3017479.613 535.150 
84578.588 5638.573 
Parameter Estimates 


. . 9596 Confidence Interval 
Dependent Variable Parameter B Std. Error . 
Lower Bound Upper Bound 


Weight Intercept 198.375 . . R 180.539 216.211 








Ist interim weight Intercept 196.125 . . - 178.184 214.066 
2nd interim weight Intercept 194.125 . . E 176.275 211.975 
3rd interim weight Intercept 192.125 - . . 174.053 210.197 

Final weight Intercept 190.313 . . 。 172.458 208.167 


( 

















结果 20310 (£) 


结果 释疑 略 ， 读 者 可 依据 20.1.1 节 的 结果 做 出 解释 。 


202 ”线性 混合 效应 模型 


SPSS 中 的 Mixed Models 过 程 能 轻松 实现 服从 正 态 分布 资料 的 线性 混合 效应 模型 的 拟 
合 。 最 近 的 文献 《MecCulloch and Searle (2000) 和 Verbeke and Molenberghs (2000)) 表明， 
采用 Mixed Models 过 程 拟 合 混合 效应 模型 的 人 越 来 越 多 。 本 节 将 首先 围绕 方差 成 分 模型 
(VARCOMP) 与 一 般 线性 模型 (GLM)， 通 过 一 个 只 含 一 个 解释 变量 的 简单 模型 ， 来 体验 
如 何 将 GLM 与 VARCOMP 的 问题 转 为 用 Mixed Models 处 理 。 

Mixed Models 不 同 于 GLM 的 最 优越 之 处 在 于 : Mixed Models 能 够 处 理 具有 相关 (不 
独立 ) 和 不 等 方差 的 数据 。 

混合 模型 不 仅 能 列 出 均值 模型 ， 而 且 能 列 出 方差 协 方差 模型 ， 可 解决 包含 不 完全 重复 
测量 在 内 的 重复 测量 设计 问题 。 能 够 处 理 的 模型 类 型 有 : 固定 效应 方差 分 析 模 型 、 完 全 随 
机 区 组 设计 (Randomized Complete Blocks Design), REBI (Split-Plot Design)、 纯 随机 
效应 模型 (Purely Random Effects Model)、 随 机 系数 模型 (Random Coefficient Model), £ 
水 平分 析 (Multilevel Analysis)、 非 条 件 线性 生长 模型 (Unconditional Linear Growth Model). 
具有 皮尔 进 协 变 量 的 线性 生长 模型 (Linear Growth Model with a Person-Level Covariate )、 
重复 测量 分 析 、 具 有 依 时 协 变 量 的 重复 测量 分 析 (Repeat Measures Analysis with 
Time-Dependent Covariates )。 


线性 混合 模型 一 般 可 表现 为 : 
y-XB-«Zy-«e 
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重复 测量 与 混合 效应 模型 EMEA 


AP, y, X, B 的 含义 同一 般 线性 模型 ，y 为 高 水 平 的 随机 向 量 估计 值 ，Z 为 相应 的 设计 和 矩 
阵 ， 随 机 误差 向 量 e 并 不 要 求 具 有 一 般 线性 模型 的 独立 、 等 方差 假定 。 其 中 y，e 的 理论 
均 数 为 0， 方 差分 别 为 G, R, 因此 ，y 的 方差 为 V=ZGZ+R。 当 R=o2] , Z=0 时 ， 混 合 模 
型 退化 为 标准 的 一 般 线 性 模型 。 

如 果 模 型 中 引入 了 随机 系数 ， 则 模型 被 称 为 方差 成 分 模型 或 随机 系数 模型 。 如 果 在 模 
型 中 同时 包含 了 固定 效应 和 随机 效应 ， 则 模型 被 称 为 混合 效应 模型 。 

采用 GLM 过 程 进行 方差 分 析 ， 仅 能 提供 平衡 设计 的 最 优 估 计 ; 而 Mixed Models 过 程 
通过 采用 ML (Maximum Likelihood) 与 REML (Restricted Maximum Likelihood) 估计 ， 
产生 平衡 与 不 平衡 设计 的 渐 近 有 效 估计 ， 尤 其 是 在 方差 与 协 方差 的 参数 估计 方面 ，Mixed 
Models 比 GLM 尤其 具有 优越 性 。 


20.2.1 分 层 随机 抽样 调查 数据 的 混合 效应 模型 分 析 


1. 实例 描述 

仍 沿用 例 20-1 的 例子 。 该 例子 是 一 个 分 层 随机 抽样 的 纵向 调查 数据 ， 
即 在 10 个 市 场 观 察 了 133 个 网 点 的 销售 量 。 按 照 多 水 平 理论 ， 设 市 场 为 高 水 平 单位 ， 则 
该 数据 呈 三 水 平 ( 层 次) 结构 ， 即 市 场 为 三 水 平 ， 网 点 为 二 水 平 ， 重 复 测量 各 时 间 点 为 最 
低 水 平 单位 。 由 于 在 前 面 的 分 析 中 ， 已 知 各 重复 时 点 (week) 及 其 相关 的 交互 效应 没有 统 
计 学 意义 ， 提 示 可 考虑 把 4 周 连 续 观 察 的 数据 ( 见 表 20-2) 合并 为 “月 销售 量 ”(sales )。 
合并 后 的 数据 结构 如 表 20-5 所 示 〈 见 数据 文件 data20-4.xls 或 data20-4.sav)。 


表 20-5 市 场 调查 数据 


网 点 市 场 市 场 规模 营业 年 限 方案 月 销售 量 
(locid) (marketid) (mktsize ) (ageloc) (promo) (sales) 
1 1 3 7 3 267.8 
2 1 3 11 2 248.84 
3 1 3 1 2 247.89 
4 1 3 6 2 251.21 
904 10 1 13 1 204.02 





数据 合并 后 ， 没 有 了 最 低 水 平 的 重复 时 点 ， 该 数据 呈 两 水 平 结 构 ， 可 以 考虑 拟 合 两 水 
平 的 线性 混合 模型 ， 其 中 市 场 为 二 水 平 单位 ， 各 网 点 为 一 水 平 单位 。 


2. Mixed Models 过 程 的 操作 提示 
3 指定 Mixed Models 过 程 操 作 提 示 


Analyze 
“Mixed Model 
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DN 与 统计 分 析 — 


“OLinear... 一 指定 为 线性 混合 模型 
> 定义 层次 结构 操作 提示 
Market ID[marketid] P>] Subjects 一 向 Subjects 栏 内 选 入 marketid， 定 义 高 水 
平 单位 
Continue 


% 定义 模型 操作 提示 
-Units sold[sales] [P] Dependent Variable FÆ sales 变量 为 应 变量 


-BPromotion[promo] >] Factors 一 定义 promo 变量 为 自 变量 
% 定义 模型 的 固定 效应 操作 提示 ( 见 图 20-7 ) 

Fixed 一 弹出 国定 效应 对 话 框 

Factors and Covariates 选择 promo (F) 

“DAdd 一 将 promo 变量 选 入 模型 

DM Include Intercept 

Continue 


Linear Mixed Models: Fixed Effects 
Fred Effects 


(* Buigtems 


Factors and Coyariates: 
| 








图 20-7 定义 固定 效应 对 话 框 


* 定义 模型 的 随机 效应 操作 提示 ( 见 图 20-8) 


“Random < h opu AC Sx EAE 
Covariance Type [v] Scaled Identity 呈 选 择 协 方差 类 型 为 Scaled Identity 
DM Include Intercept c 381 65 EDLA S. 6,8 A E 
Subjects Groupings— Subjects : 一 选择 变量 MarketID 作为 标识 


选择 Market ID [f] Combinations 
Continue 


重复 测量 与 混合 效应 模型 EHE 


Linear Mixed Models: Random Effect 

















20-8 ”定义 随机 效应 对 话 框 


在 协 方差 类 型 (Covariance Type) 中 可 以 选择 多 种 协 方差 结构 ， 其 中 包括 6 种 协 方差 
结构 〈 一 阶 自 回 归 、 复 对 称 、Huynh-Feld、Identity、Unstructured、 方 差 成 分 ) 和 11 种 非 
空间 协 方差 类 型 CFirst-Order Ante-Dependence, Heterogeneous, First-Order Autoregressive, 
ARMA (1,1) , Heterogeneous Compound Symmetry, Compound Symmetry with Correlation 
Parameterization, Diagonal, First-Order Facto Analytic, Toeplitz, Heterogeneous Toeplitz, 
Unstructured Correlations) . 


% 定义 参数 估计 方法 的 操作 提示 ( 见 图 20-9 ) 


SPSS 的 Mixed Models 过 程 提 供 了 最 大 似 然 法 ML 和 有 约束 的 最 大 似 然 法 REML 两 种 
估计 方法 ， 该 对 话 框 除非 必须 ， 否 则 一 般 使 用 其 默认 设置 。 对 话 框 中 主要 内 容 包 括 : 


Linear Mixed Models 





图 20-9 参数 估计 对 话 框 
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[SPSS 与 统计 分 析 C 


Method: 用 于 控制 在 估计 中 用 到 的 迭代 算法 ; 

Maximum iterations: 最 大 迭代 次 数 ; 

e Maximum step-halvings: 人 允许 最 大 步 长 等 分 ; 

Log-likelihood Convergence: 对 数 似 然 函数 收敛 准则 ; 
Parameter Convergence: 参数 估计 收敛 准则 〈 绝 对 和 相对 ) ; 
Maximum scoring steps: 适用 评分 算法 ; 

Singularity tolerance: 检验 奇异 点 的 容许 值 。 


3 定义 输出 模型 统计 量 操作 提示 ( 见 图 20-10) 





“Statistics > 
AM Parameter estimates ; 一 输出 国定 效应 与 随机 效应 的 参数 估计 
结果 及 其 标准 误 
DM Tests for covariance parameters cái B ez E + 333 AF2 5 Wald 
检验 结果 
“E| Covariances of random effects c dip Hh I JTu2t RS 854r 2 X 2E Ë 
Continue 
BOK 
Linear Mixed Models:.. 
图 20-10 ”定义 输出 模型 统计 量 对 话 框 
其 他 选项 的 含义 如 下 : 


* Descriptive statistics: 描述 性 统计 量 ; 

e Case Processing Summary: 记录 处 理 摘 要 及 迭代 历史 ; 

e Correlations of parameter estimates: 固定 效应 参数 估计 值 的 近似 相关 矩阵; 

* Covariances of parameter estimates: 固定 效应 参数 估计 值 的 近似 协 方差 矩阵 ; 
e Covariances of residuals: 残 差 的 估计 协 方差 阵 ; 

* Contrast coefficient matrix: 用 于 检验 固定 效应 与 假设 的 可 估 函 数 。 
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重复 测量 与 混合 效应 模型 ENIM 


结果 解释 


Mixed Model Analysis 


Model Dimension” 


Number of Covariance Number of Subject 
DEBERI Levels Structure Parameters Variables 
Fixed Effects Intercept 
Promo 
Random Effects Intercept Identity 


Residual 
Total 














a. Dependent Variable: Units sold. 
结果 20-11. 模型 分 析 的 基本 信息 
Information Criteria" 


-2 Restricted Log Likelihood 1024.626 
Akaike's Information Criterion (AIC) 1028.626 


Hurvich and Tsai's Criterion (AICC) 1028.721 
Bozdogan's Criterion (CAIC) 1036.361 
Schwarz's Bayesian Criterion (BIC) 1034.361 


The information criteria are displayed in smaller-is-better forms. 





a. Dependent Variable: Units sold. 
结果 20-12 信息 量 准则 
结果 释疑 : 
结果 20-11 和 结果 20-12 分 别 为 模型 分 析 的 基本 信息 和 第 选 最 优 模型 时 采用 的 信息 量 


准则 , 包括 似 然 比 的 变化 (-2lnL) 、 赤 池 信 息 量 准 则 (AIC) 、Hurvich 与 Tsai 准则 (AICC)、 
Bozdogan 准则 (CAIC) 和 Schwarz 贝 叶 斯 准则 (BIC) 。 


Fixed Effects 
Type III Tests of Fixed Effects" 


EMEN ENT CENE NEN 


Intercept 9.136 546.281 
promo 121.406 147.698 


a. Dependent Variable: Units sold. 






结果 20-13 ”固定 效应 的 分 析 结果 


结果 释疑 : 
结果 20-13 为 圈定 效应 的 分 析 结 果 , 结果 提示 变量 promo 具有 统计 学 意义 (P<0.0001)。 
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Estimates of Fixed Effects" 


. 95% Confidence Interval 
Parameter Estimate Std. Error df T Sig. 
Lower Bound Upper Bound 


Intercept 205.4198 8.844061 9.555 - 185.588898 225.250795 





[promo=1] 17.7744 2.260550 121.260 . 13.299159 22.249676 
[promo=2] -20.8377 2.224068 121.545 . -25.240675 -16.434817 
[promo=3] o 0 





a. This parameter is set to zero because it is redundant. 
b. Dependent Variable: Units sold. 


结果 20-14 固定 效应 的 参数 估计 、 标 准 误 及 其 假设 检验 结果 


结果 释疑 : 


结果 20-14 中 给 出 了 固定 效应 的 参数 估计 、 标 准 误 及 其 假设 检验 结果 ， 由 于 promo 为 
分 类 变量 ， 因 此 在 模型 分 析 时 ， 将 第 3 种 方案 (promo=3〉 默认 为 元 余 分 类 。 

变量 promo 的 参数 估计 值 体现 了 前 2 种 方案 与 第 3 种 方案 的 差异 。 结 果 提示 ， 其 他 2 
种 方案 皆 与 第 3 种 方案 有 统计 学 差异 ， 其 中 第 1 种 方案 的 销售 量 最 好 ， 第 2 种 方案 的 销售 
量 最 差 。 

上 述 为 单 变 量 的 分 析 结 果 ， 如 同 在 GLM 过 程 中 一 样 ， 可 以 在 模型 中 加 入 更 多 的 因素 ， 
操作 方法 与 GLM 类 似 。 如 本 例 ， 在 模型 中 可 以 加 入 ageloc 与 mktsize， 但 分 析 结果 提示 两 
因素 无 统计 学 意义 。 


Covariance Parameters 


Estimates of Covariance Parameters" 


5% 
Parameter Estimate | StdEmor | Wald Z 25% Confidence Interval 
Upper Bound 
Residual 105.2240 | 13.5202 | 7.783 | .000 | 81.798269 135.358588 
Intercept [subject = Variance marketid] | 752.6749 | 357.7743 | 2.104 | .035 | 296.483001 1910.799358 


a. Dependent Variable: Units sold. 










(a) 
Random Effect Covariance Structure (GY 


| [ Intereept i marketed 
Intercept | marketid 752.674915 


Identity 
a. Dependent Variable: Units sold. 
(b) 


结果 20-15 ”误差 与 随机 效应 的 协 方差 参数 分 析 结果 


结果 释疑 : 


结果 20-15 为 误差 与 随机 效应 的 协 方差 参数 分 析 结果 。 由 于 没有 重复 测量 效应 ， 所 以 
误差 项 独立 ， 方 差 近 似 值 为 105。 随 机 效应 的 方差 参数 的 近似 估计 值 为 753。 
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20.2.2 重复 测量 数据 的 混合 效应 模型 分 析 


1. 实例 描述 

仍 沿用 例 20-2 的 例子 〈 见 表 20-4)。 在 20.1.1 节 中 ， 为 了 将 数据 库 由 
通用 格式 转换 为 重复 测量 数据 所 要 求 的 格式 ， 而 对 之 进行 了 “数据 重 构 ”。 而 线性 混合 效 
应 模型 所 要 求 的 格式 则 正好 与 前 者 相反 ， 后 者 采用 了 通用 的 数据 库 格 式 。 因 此 ， 首 先 要 对 
表 20-4 进行 相反 的 操作 ， 将 之 转换 为 适合 于 线性 混合 模型 分 析 的 数据 库 通用 格式 。 

2. 数据 重 构 


a 数据 重 构 操作 提示 ( 见 图 20-1) 


-Data 00 宁 在 菜单 栏 上 单 击 Data 
Restructure... == ik Restructure Data Wizard 对 话 框 
Restructure selected variables into cases iki ibm 
Next 
More than one (for example ...) 号 选 择 转 换 多 个 列 变量 为 记录 
“Next 
Case Group identification T 43:5] £. 号 采用 待 选 变量 为 标识 变量 

Use select variable 
“Patient ID [>] variable 中 定义 数据 库 的 标识 变量 
Variables to be Transposed: 定义 待 转换 的 变量 

Target: tranl 命名 为 trigly 宁 将 默认 的 tranl 重新 命名 为 trigly 
tgo  [*] Target 列表 杠 全 依次 将 tg0~tg4 选 入 待 转换 变量 列 
tgl [»]Target 列表 框 E 


Atg2 [»] Target 列表 框 
Atg3 [y]Target 列表 框 
Atg4  [»] Target 列表 框 


Target: tran2 命名 为 weigh SHRUNK tran2 重新 命名 为 weigh 
"BwgtO [>] Target 列表 框 宁 依 次 将 Wgt0 — wgt4 选 入 待 转换 变量 
列表 


他 wgtl [>] Target 列表 框 

Dwgt2 [>] Target 列表 框 

Dwgt3 [>] Target 列 表 框 

Dwgt4 [>] Target 列表 框 

age in years [>] Fixed Variable 列表 框 号 将 其 他 未 选 变量 同时 先入 Fixed 列表 
框 


DIN 与 统计 分 析 — 


"Bgender [> ] Fixed Variable 列表 框 


Next 
Next 
Sequential Numbers 一 选择 序列 数字 ( 自动 提示 次 数 为 5 ) 
Edit the Index Variable Name and Label: 编辑 重复 测量 标识 变量 名 与 标签 
indexl 修改 为 time x 一 将 默认 的 变量 名 index1 修改 为 time 
label 命名 为 measurement x 一 将 变量 标签 定义 为 measurement 
Next or Finish es R 


数据 重 构 后 结构 如 表 20-6 所 示 〔〈 见 数据 文件 data20-4.xls 或 data20-4.sav )。 


表 20-6 重 构 后 的 数据 库 通用 格式 


患者 编号 年 龄 性 别 测量 时 间 点 甘油 三 酸 脂 体重 
Patid Age Gender Time Trigly weigh 

1 45 0 1 180 198 

1 45 0 2 148 196 

1 45 0 3 106 193 

1 45 0 4 113 188 

1 45 0 5 100 192 

2 56 0 1 139 237 

2 56 0 2 94 233 

2 56 0 3 119 232 

2 56 0 4 75 228 

2 56 0 5 92 225 

3 50 0 1 152 233 

3 50 0 2 185 231 
16 60 1 5 130 140 


3. Mixed Models 过 程 的 操作 提示 

在 Mixed Models 过 程 中 ， 指 定 重复 测量 因素 后 ，Repeated covariance type 下 拉 列 表 变 
为 可 选 状态 (未 指定 重复 测量 时 为 不 可 选 )。 这 时 可 以 选择 合适 的 协 方差 结构 , 包括 AR(1)， 
Compound symmetry, Huynh-Feldt, Scaled identity, Toeplitz, Unstructured. 
% 指定 Mixed Models 过 程 操 作 提示 


"BAnalyze 
Mixed Model | 
Linear... 一 指定 为 线性 混合 模型 
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d 定义 层次 结构 操作 提示 
Patient ID[patid] [>] Subjects 
Measurement [time] [>] Repeat 
"BRepeated covariance type:Huynh-feldt 


Continue 

x 定义 模型 操作 提示 
“S Weight [wgt] [>] Dependent Variable 
Measurement [time] [> | Factors 

a 定义 模型 的 固定 效应 操作 提示 
-Fixed 
Factors and Covariates 选择 Promo 


Add 
Continue 


% 定义 模型 的 随机 效应 操作 提示 
“Random 


Covariance Type [v] Variance Component 


“Subjects Groupings— Subjects : 
选择 Patient ID [>] Combinations 
Continue 


% 定义 输出 模型 统计 量 操作 提示 


Statistics 
DM Parameter estimates 


重复 测量 与 混合 效应 模型 EMEA 


SHE Subjects 标识 变量 

一 指定 重复 测量 时 间 

= f Repeated covariance type 下 拉 列 表 选 择 
协 方 差 类 型 为 Huynh-feldt 


号 定义 Weight 变量 为 应 变量 
= X. time 变量 为 自 变量 


号 弹出 固定 效应 对 话 框 


一 将 promo 变量 选 入 模型 


一 弹出 随机 效应 对 话 杠 

号 选 择 随 机 效应 协 方 差 类 型 为 Variance 
Component 

一 模型 的 随机 效应 包含 规 距 

一 选择 变量 Patient ID 作为 标识 


号 输 出 固定 效应 与 随机 效应 的 参数 估计 结果 及 
其 标准 误 


“BE Tests for covariance parameters ”= 输出 协 方差 参数 渐 近 标准 误 与 Wald 检 验 结果 
“OM Correlation of parameter estimates 号 输 出 固定 效应 参数 估计 值 的 近似 相关 矩阵 


“OA Covariances of random effects 
Continue 
BOK 


一 输出 随机 效应 的 估计 协 方差 矩阵 
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结果 解释 〈( 见 结果 20-16) 
Mixed Model Analysis 
Model Dimension" 


Number of Covariance Number of Subject Number of 
Fixed Effects i 5 5 
Repeated Effects i 5 Huynh-Feldt 6 patid 
Total 10 11 


a. Dependent Variable: Weight. 








(a) 
Information Criteria" 
-2 Restricted Log Likelihood 413.272 
Akaike's Information Criterion (AIC) 425.272 
Hurvich and Tsai's Criterion (AICC) 426.507 
Bozdogan's Criterion (CAIC) 445.177 
Schwarz's Bayesian Criterion (BIC) 439.177 
The information criteria are displayed in smaller-is-better forms. 





a. Dependent Variable: Weight. 

(b) 
Fixed Effects 
Type HI Tests of Fixed Effectsa 


sam | mamara Ti | | Se | 


a. Dependent Variable: Weight. 





(c) 
Estimates of Fixed Effects" 


95% Confidence Interval 
Parameter Upper Bound 


[time=1] 198.375000 8.464267 180.204353 216.545647 
[time=2] 196.125000 8.534334 . | + 177.796191 214.453809 
[time=3] 194.125000 8.452367 . A : 176.035643 212.214357 
[time-4] 192.125000 8.589767 . . 4 173.691501 210.558499 
[time=5] 190.312500 8.460678 . a 4 172.155258 208.469742 





a. Dependent Variable: Weight. 
(D 
Correlation Matrix for Estimates of Fixed Effects" 


[time-1] 
[time-2] 


[time=3] 
{time=4] 


[time=5] 





a. Dependent Variable: Weight. 
(e) 


结果 20-16 SPSS 统计 分 析 结 果 
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Covariance Parameters 
Estimates of Covariance Parameters" 


Repeated Measures Var: [time=1] 1146.301051 435.365604 
1165.357759 443.588715 
1143.080134 427.029719 
1180.545662 447.528598 
1145.329119 434.275669 
2.630833 .480322 






95% Confidence Interval 
Upper Bound 


544.517698 2413.155910 
552.653404 2457.342518 
549.650226 2377.206684 
561.570144 2481.770222 
544.727501 2408.137626 
1.689419 3.572248 
























Var: [time=2] 











Var: [time=3] 
Var: [time=4] 
Var: [time=5] 
HF lambda 































a. Dependent Variable: Weight. 


(D 
Correlation Matrix for Estimates of Covariance Parameters" 


— — — === Det | == [e Tons ] 


Repeated Measures 





a. Dependent Variable: Weight. 
(g) 


结果 20-16 (4D 
结果 释疑 略 ， 读 者 可 依据 20.2.1 节 的 结果 做 出 解释 。 


x Al 章 ”多 变量 方差 分 析 





前 述 方差 分 析 为 单个 应 变量 (Dependent Variable) ， 即 为 一 元 方差 分 析 ， 当 扩展 到 多 
个 应 变量 时 ， 则 称 为 多 元 方差 分 析 (Multivariate Analysis of Variance; MANOVA) ， 通 常 
又 称 为 多 变量 方差 分 析 。 读 者 在 此 要 注意 ， 不 要 将 一 元 与 多 元 、 单 变量 与 多 变量 和 单 因素 
与 多 因素 、 单 因子 与 多 因子 相 混 淆 。 单 变量 〈 一 元 ) 与 多 变量 (多元) 是 指 反 应 变量 ， 单 
因素 〈 单 因子 ) 与 多 因素 (多 因子 ) 是 指 影响 因素 。 因 此 多 元 方差 分 析 可 分 为 单 因素 多 元 
方差 分 析 与 多 因素 多 元 方差 分 析 。 

# ANOVA 中 ， 要 求 样本 必须 满足 独立 、 正 态 、 等 方差 的 总 体 ， 而 对 于 MANOVA 而 
由 于 涉及 多 个 应 变量 ， 除 要 求 每 单个 应 变量 满足 以 上 条 件 外 ， 还 必须 满足 以 下 条 件 。 
。 各 应 变量 间 具 有 相关 性 ; 

e 每 一 组 都 有 相同 的 方差 - 协 方差 阵 ; 

。 各 应 变量 为 多 元 正 态 分 布 。 

多 元 方差 分 析 所 分 析 的 资料 为 多 维 随 机 变量 ， 其 目的 在 于 检验 影响 因素 或 处 理 因 素 如 
何 同时 影响 一 组 应 变量 。 从 理解 上 ，MANOVA 与 ANOVA 并 没有 多 大 差异 ， 只 不 过 由 单 
个 应 变量 扩展 为 多 个 应 变量 。 比 如 ， 我 们 要 分 析 儿 童 的 生长 发 育 情况 ， 我 们 单纯 以 身高 或 
体重 作为 评价 指标 总 是 片面 的 ， 因 此 把 能 够 反应 生长 发 育 的 一 组 变量 身高、 体重 、 胸 围 、 
肺活量 等 ) 作为 综合 评价 的 依据 ， 这 些 指 标 即 为 向 量 。 

SPSS 中 用 于 多 元 方差 分 析 假 设 检验 的 统计 量 如 下 : 

e Pillai's Trace: Pillai 轨迹 ; 

e Wilks’ Lambda: Wilks’ 人， 又 称 为 广义 方差 比 ; 

* Hotelling-Lawley Trace: Hotelling 轨迹 ; 

e Roy's Largest Root: Roy 最 大 根 。 

4 个 统计 量 以 下 值 表示 ， 当 多 个 应 变量 的 第 一 个 最 大 特征 根 完全 解释 了 各 应 变量 的 共 
同 变异 时 ，4 个 统计 量 的 人 值 相 等 ，F 服从 严 分 布 。 反 之 ， 当 第 一 个 特征 根 不 能 完全 解释 
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各 应 变量 的 变异 时 ， 表 现 为 4 个 对 应 的 五 值 与 P 值 不 相等 。P 值 的 不 同 要 求 我 们 在 做 出 统 
计 推 断 时 必须 慎重 选用 统计 量 。 上 述 4 个 统计 量 按 保守 性 排列 ，Roy's 最 大 根 的 结果 为 F 
值 的 上 限 ， 而 Pillai 则 是 最 保守 、 最 过 硬 的 判定 标准 ， 即 使 违背 假设 ， 通 过 适当 的 修正 ， 
仍 不 失 其 正确 性 。 当 然 ， 折 中 地 选择 ， 一 般 我 们 选用 比较 保守 的 Wilks Lambda (4) 和 
Hotelling-Lawley Trace 的 假设 检验 结果 。 


21.1 ” 单 因 素 设计 资料 的 多 元 方差 分 析 


21.1.1 单 样本 分 析 


1. 实例 描述 

了 解 某 地 不 同时 期 儿童 生长 发 育 情况 , 随机 调查 了 20 名 8 岁 男 童 的 身 
高 (Y1)、 体 重 (Y2)、 胸 围 (Y3) 三 项 指标 , 调查 结果 见 表 21-1 ( 见 数据 文件 data21-1.xls 
或 data21-lsav) 。 试 检验 本 次 儿童 生长 发 育 调查 结果 是 否 高 于 10 年 前 的 平均 水 平 
(121.57cm, 21.54kg, 57.98cm) 。 


表 21-1 儿童 生长 发 育 调查 数据 
编号 身高 (cm) 体重 (kg) 胸围 (cm) 身高 (cm) 体重 (kg) 胸围 (cm) 





NO. Yi Ya Y3 yı Ya Y3 
1 141.2 31.8 63.6 136.1 26.4 60.2 
2 1302 23.0 62.5 1312 24.3 59.6 
3 130.4 244 62.6 133.9 272 65.8 
4 130.8 26.8 614 1314 279 63.3 
5 1282 26.1 63.9 126.5 25.1 63.3 
6 129.5 24.6 51.2 126.1 22.7 573 
7 1282 22.3 60.0 127.5 22.9 59.6 
8 1242 19.5 53.2 1253 22.7 65.1 
9 123.0 22.6 61.0 124.8 23.1 60.2 
10 124.9 18.8 56.6 1214 19.1 56.5 
数据 来 源 : 张 家 放 . 医用 多 元 统计 方法 . 华中 科技 大 学 出 版 社 ，2002 
2. 操作 提示 
* 数据 转换 ( 数据 编辑 窗口 ) 
“Transform 
Compute 
Target Variable: Y1 王将 原始 数据 减 去 对 应 的 总 体 均 数 ， 产 生 新 
Numeric Expression: Y1-121.57 的 观察 值 。 
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BOK 

Compute 

Target Variable: Y2 
Numeric Expression: Y2-21.54 
BOK 

Compute 

Target Variable: Y3 
Numeric Expression: Y3-57.98 
BOK 


* 指定 GLM: Multivariate 过 程 操 作 提 示 


Analysis 
General Linear Model 
Multivariate … 


> 定义 模型 操作 提示 ( 见 图 21-1) 


Y1  » Dependent Variables 
Y2 h Dependent Variables 
-8Y3  » Dependent Variables 
Options 

®Display | V| Descriptive statistics 
Continue 

BOK 


m Multivariate 


Í 
WLS Weight 
CET 


OK | Pate | Beset | Cancei | He | 








ËJ 21-1 Multivariate 主 对 话 框 


以 上 列举 了 简单 的 操作 过 程 , 详细 的 操作 及 对 话 框 含义 将 在 21.2 节 的 多 因素 多 元 方差 
分 析 中 介绍 。 
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结果 解释 


General Linear Model 
Descriptive Statistics 


L = emm La — 


4.71575 


3.15048 
3.82767 





(a) 
Multivariate Tests " 


Intercept Pillai's Trace 
Wilks' Lambda 
Hotelling's Trace 
Roy's Largest Root 





a. Exact statistic 
b. Design: Intercept 


(b) 
Tests of Between-Subjects Effects 


Source Dependent Variable Type HI Sum of Squares 


Corrected Model 


Intercept 1028.178 1028.178 
127.513 127.513 
111.865 111.865 
422.528 22.238 
188.586 9.926 
278.370 14.651 

1450.706 
316.098 
390.234 
422.528 
188.586 
278.370 

















a. R Squared = .000 (Adjusted R Squared = .000) 


(c) 


结果 21-1 SPSS 中 多 元 方差 分 析 结 果 


结果 释疑 : 
结果 21-1 为 SPSS 中 多 元 方差 分 析 的 最 简单 结果 形式 。 
e 结果 21-1 (a) 为 样本 观察 值 与 总 体 均 数 差 值 的 均 数 与 标准 差 。 
e 结果 21-1 (b) 为 检验 统计 量 的 值 ， 可 见 4 种 统计 量 的 严 值 都 有 统计 学 意义 ， 说 明 
该 地 儿童 生长 发 育 情况 要 好 于 10 年 前 。 
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。 结 果 21-1 (c) 则 给 出 了 身高 、 体 重 和 胸围 三 个 指标 的 意义 ， 结 果 提示 三 个 指标 乡 
” nmm. 


21.1.2 ”两 样本 单 因素 设计 资料 


1. 实例 描述 

为 了 研究 某 种 疾病 的 治疗 效果 ， 随 机 观察 了 一 批 病人 使 用 三 种 不 同 药 
品 (A, B, C) 情况 ， 结 果 见 表 21-2( 见 数据 文件 data21-2.xls 或 data21-2.sav) 。 试 比较 
药品 对 两 个 指标 的 作用 。 


表 21-2 三 种 药品 的 疗效 数据 
药品 














A B € 

性 别 Y1 Y2 Yl Y2 Yi Y2 

5 5 6 7 6 17 15 
5 4 7 7 14 12 
9 9 9 12 17 12 
7 6 6 8 12 10 

女 4 4 6 6 14 13 
3 4 5 5 12 12 
6 5 5 8 12 10 
6 7 4 5 8 7 





数据 来 源 ， 张 家 放 . 医用 多 元 统计 方法 . 华中 科技 大 学 出 版 社 ，2002 
2. 操作 提示 
a 指定 GLM: Multivariate 过 程 操 作 提 示 


Analysis 
General Linear Model 
Multivariate … 


> 定义 模型 操作 提示 


y1 [*]Dependent Variables 

BY2 [*]Dependent Variables 

DRUG [P | Fixed Factor(s) 

Options 

Estimated Marginal Means Factor(s) and Factor Interactions: 
DRUG [P | Display Means for 

Continue 

DOK 
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3. 结果 解释 


General Linear Model 
Multivariate Tests ° 


Hypothesis df Error df 


Intercept Pillai's Trace . 176.480* 
Wilks' Lambda R 176.480* 
Hotelling's Trace 176.480* 
Roy's Largest Root 176.480* 
Pillai's Trace . 8.312 
Wilks' Lambda ` 11.436° 
Hotelling's Trace 14.865 
Roy's Largest Root 31.216” 

















a. Exact statistic 
b. The statistic is an upper bound on F that yields a lower bound on the significance level. 
c. Design: Intercept+DRUG 


(a) 
Tests of Between-Subjects Effects 


Source Dependent Variable Type HI Sum of Squares 


Corrected Model 291.083* 145.542 29.891 
142.333* 71.167 15.153 
Intercept 1666.667 1666.667 | 342.298 
1552.042 1552.042 | 330473 
DRUG 291.083 145.542 29.891 
142.333 71.167 15.153 
Error 102.250 4.869 
98.625 4.696 
Total 2060.000 
1793.000 
Corrected Total 393.333 
240.958 

















a. R Squared = .740 (Adjusted R Squared = .715) 
b. R Squared = .591 (Adjusted R Squared = .552) 
(b) 


Estimated Marginal Means 
DRUG 


95% Confidence Interval 
Dependent Variable DRUG Mean Std. Error Lower Bound Upper Bound 

















(c) 


结果 21-2 SPSS 统计 分 析 结 果 
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结果 释疑 : 


Pillai's Trace, Wilks' Lambda, Hotelling's Trace, Roy's Largest Root 4 个 检验 统计 量 的 
值 不 等 ， 且 依次 增 大 ， 这 时 确定 P 值 要 慎重 ， 一 般 情况 下 选择 相对 保守 的 Wilks' Lambda 
与 Hotelling's Trace 的 结果 《〈 见 结果 21-2 (a) ) 。 由 此 结果 可 见 ， 药 品 对 两 个 指标 的 主 效 
应 有 统计 学 意义 。 

结果 21-2 (c) 给 出 3 种 药品 两 个 指标 的 均 数 与 标准 误 ，3 种 药物 结果 递增 ， 但 哪些 药 
品 的 治疗 效果 有 差别 ， 需 要 进一步 做 多 重 比较 。 


21.2 ”多 因素 资料 的 多 元 方差 分 析 
21.21 两 因素 设计 


1. 实例 描述 

在 例 21-2 中 比较 了 不 同 药品 间 两 指标 的 差别 ， 为 单 因素 设计 。 下 面 我 
们 将 药品 和 性 别 两 个 因素 引入 ， 并 分 析 药 品 与 性 别 是 否 存在 交互 效应 。 

2. 操作 提示 
a 指定 GLM: Multivariate 过 程 操 作 提 示 

Analysis 

General Linear Model 

“Multivariate … 


> 定义 模型 操作 提示 (MB 21-2) 


531 [>] Dependent Variables 
32 [>] Dependent Variables 
DRUG  [»]Fixed Factor(s) 
“GENDER [> | Fixed Factor(s) 
Model 一 定义 模型 ， 黑 认为 饱和 模型 
Continue 
* 定义 模型 对 照 法 操作 提示 ( 见 图 21-3) 
Contrasts : 
DRUG (None) 
"BChange Contrast 
Contrast [= | Difference 
“Change 宇 定义 模型 ， 默 认为 饱和 模型 
Continue 








变量 方差 分 析 EMEA 


= Multivariate 


Multivariate: Contrasts 


Factors: 
GENDER(None) 





É 21-2 Multivariate 主 对 话 框 图 21-3 Contrasts 子 对 话 框 
在 图 21-3 中 ， 选 择 对 照 法 有 多 种 ， 默 认为 None， 其 他 的 有 偏 对 照 (Deviation) 、 均 


ZX (Difference) 、 多 项 式 对 照 (PolynominaD 等 。 
> 定义 轮廓 图 操作 提示 ( 见 图 21-4 ) 


“Plots 

DRUG [>] Horizontal Axis 一 横 轴 变量 为 药品 
-GENDER [>] Separate Lines 一 按 性 别 分 类 ， 
"BAdd 

Continue 


Multivariate: Profile Plo 








图 21-4 Profile Plots 子 对 话 框 


d 定义 多 重 比 较 操 作 提 示 (图 21-5) 


“Post Hoc 
DRUG []Post Hoc Tests for 呈 横 轴 变 量 为 药品 
.Equal Variances Assumed bk 3) 2-3 
i" LSD 
WV S-N-K 
“Continue 





r REGWQ 


Equal Variances Nol Assumed 
I7 Tamhane'sT2 [° Dunnet's T [ GamerHowel [^ Dumneif's C 





图 21-5 Post Hoc Multiple Comparisons for... 子 对 话 框 


由 于 性 别 (GENDER). 只 有 两 个 分 类 ， 所 以 不 必要 再 进行 多 重 比较 。 以 上 作为 例子 ， 
列举 了 LSD 法 ， 在 多 元 方差 分 析 中 ，Bonferroni 法 和 Tukey 法 应 用 更 多 一 些 ， 读 者 可 以 对 
不 同方 法 做 一 对 比分 析 。 


d 定义 模型 选项 操作 提示 ( 见 图 21-6 ) 


Options 
Estimated Marginal Means Factor(s) and Factor Interactions 
DRUG [>] Display Means for 
“Display 
iv Homogeneity tests 
[v Descriptive statistics 
[fw Parameter estimates 
Continue 
BOK 


Multivariate: Options 


Signficance leyel: | 05 Confidence intervals are 95% 


[ee] cm | rm | 
图 21-6 Options 子 对 话 框 





在 Options 子 对 话 框 中 ，Display 下 各 选择 项 的 含义 如 下 。 
* Descriptive statistics: 描述 统计 量 ; 
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Transformation matrix: 对 照 变量 的 转换 阵 ; 

Estimates of effect size: 总 效应 估计 ; 

Homogeneity tests: 方差 齐 性 检验 或 等 方差 性 检验 ; 

Observed power: 检验 水 准 下 的 检验 效能 ; 

Parameter estimates: 给 出 参数 估计 值 、 标 准 误 、f 检验 及 可 信 区 间 ; 

Residual plots: RÆK; 

SSCP matrices: 回归 平方 和 、 误 差 平方 和 及 其 交叉 积 阵 ; 

Lack of fit test: 检验 应 变量 与 自 变量 是 否 被 模型 解释 ， 即 误差 子 阵 假设 检验 ; 
Residual SSCP matrix: 残 差 的 协 方差 阵 与 Bartlett's 球 型 检验 ; 

General estimable function: 允许 用 户 设置 基于 广义 估计 函数 的 假设 。 


结果 解释 


General Linear Model 
Descriptive Statistics 





Mean Std. Deviation N 





oo 4 + oo ha A o + + 












结果 21-3 ”描述 统计 量 


结果 释疑 : 


描述 统计 量 包括 Y1, Y2 两 个 变量 在 药品 与 性 别 6 种 组 合 下 的 均 数 、 标 准 差 与 例 数 ( 见 
结果 21-3) 。 配 合 后 面 均 数 的 轮廓 图 可 以 提示 均 数 的 变化 趋势 。 
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Box's Test of Equality of Covariance Matrices * 


1772.187 
958 

Tests the null hypothesis that the observed covariance matrices of the dependent variables are equal across groups. 
a. Design: Intercept- DRUG«* GENDER4DRUG * GENDER 


(a) 





Multivariate Tests ° 
Hypothesis df 


Intercept Pillai's Trace ` 232.476 
Wilks' Lambda ， 232.476* 
Hotelling's Trace 232476 
Roy's Largest Root 232.476 
Pillai's Trace . 8.655 
Wilks' Lambda . 14.335* 
Hotelling's Trace 21.432 


Roy's Largest Root 46.734" 
GENDER Pillai's Trace . 5.606° 
Wilks' Lambda . 5.606* 
Hotelling's Trace . 5.606* 
Roy's Largest Root . 5.606* 
DRUG * GENDER Pillai's Trace 
Wilks' Lambda 
Hotelling's Trace 

















Roy's Largest Root 





a. Exact statistic 
b. The statistic is an upper bound on F that yields a lower bound on the significance level. 
c. Design: Intercept- DRUG«*GENDER-4 DRUG * GENDER 

(b) 


结果 21-4 ”多 元 方差 分 析 结 果 
结果 释疑 : 


多 元 方差 分 析 DRUG 与 GENDER 主 效 应 的 Pillai's Trace, Wilks' Lambda, Hotelling's 
Trace, Roy's Largest Root 4 种 检验 统计 量 的 结果 相同 ， 说 明 药品 与 性 别 两 个 因素 对 Y1 与 
Y2 两 个 指标 有 统计 学 意义 (P=0.000，P=0.013)， 而 其 交互 效应 无 统计 学 意义 (P=0.650)， 
说 明 药 品 与 性 别 对 两 个 指标 的 影响 不 存在 协同 作用 ( 见 结果 21-4) 。 


Levene's Test of Equality of Error Variances * 





Tests the null hypothesis that the error variance of the dependent variable is equal across groups. 
a. Design: Intercept+DRUG+GENDER+DRUG * GENDER 


结果 21-5 ”等 方差 齐 性 检验 结果 








多 变量 方差 分 析 EIN 


结果 释疑 : 
等 方差 性 检验 结果 表明 Y1，Y2 在 各 组 满足 总 体 方差 相等 的 假设 〈 见 结果 21-52. 。 


Tests of Between-Subjects Effects 


Type III Sum of Squares Mean Square 
Corrected Model 331.833* 66.367 19.424 
161.708" 32.342 7.346 

Intercept 1666.667 1666.667 487.805 
1552.042 1552.042 352.514 

DRUG 291.083 145.542 42.598 
142.333 71.167 16.164 

GENDER 37.500 37.500 10.976 
18.375 18.375 4.174 

DRUG * GENDER 3.250 1.625 .476 
1.000 .500 .114 

Error 61.500 3.417 
79.250 4.403 

Total 2060.000 
1793.000 

Corrected Total 393.333 
240.958 


Ñ oe — N N — UA GA 
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a. R Squared = .844 (Adjusted R Squared = .800) 
b. R Squared = .671 (Adjusted R Squared = .580) 

(a) 
Parameter Estimates 


95% Confidence Interval 
Dependent Variable Parameter B Std. Error ig. 


Intercept 

[DRUG=1] 

[DRUG=2] 

[DRUG=3] 

[GENDER=1] 

[GENDER=2] 

[DRUG=1] * [GENDER-1] 

[DRUG-1] * [GENDER-2] 

[DRUG=2] * [GENDER=1] 

[DRUG=2] * [GENDER=2] 

[DRUG=3] * [GENDER=1] 

[DRUG=3] * [GENDER=2] 

Intercept 

[DRUG=1] 

[DRUG=2] 

[PRUG=3] 

[GENDER=1] 

[GENDER-2] 

[DRUG-1] * [GENDER-1] 

[DRUG=1] * [GENDER-2] 

[DRUG-2] * [GENDER- 1] 

[DRUG=2] * [GENDER-2] 

(DRUG-3] * [GENDER-1] 

[DRUG=3] * [GENDER-2] 
a. This parameter is set to zero because it is redundant. 




















(b) 


结果 21-6 方差 分 析 结 果 和 参数 估计 结果 
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结果 释疑 : 


在 多 变量 的 分 析 结 果 中 ， 只 提供 了 均 数 向 量 是 否 有 差别 的 结论 ， 而 并 不 能 得 到 单 变量 
之 间 的 差别 。 结 果 21-6 (a) 和 结果 21-6 (b) 分 别 为 方差 分 析 的 结果 和 参数 估计 结果 ， 进 
一 步 给 出 了 Y1 和 Y2 单 变量 的 分 析 结 果 。 结 果 显 示 ，Y1 在 药品 和 性 别 两 个 因素 上 都 有 差 
别 ， 而 Y2 只 在 药品 上 有 差别 ， 在 性 别 间 不 具有 统计 学 意义 。 药 品 与 性 别 的 交互 效应 在 Y1 
与 Y2 上 都 没有 统计 学 意义 


Custom Hypothesis Tests 
Contrast Results (K Matrix) 


Y1 


Level 1 vs. Mean Contrast Estimate 
Hypothesized Value 
Difference (Estimate - Hypothesized) 
Std. Error 
Sig. 
9596 Confidence Interval for Difference Lower Bound 
Upper Bound 
Level 2 vs. Mean Contrast Estimate 
Hypothesized Value 
Difference (Estimate - Hypothesized) 
Std. Error 
Sig. 
95% Confidence Interval for Difference ^ Lower Bound 
Upper Bound 











a. Omitted category = 3 


(a) 
Muiltivariate Test Results 


—— y TE 


Pillai's trace 


Wilks' lambda 
Hotelling's trace 
Roy's largest root 





a, Exact statistic 


b. The statistic is an upper bound on F that yields a lower bound on the significance level. 
(b) 
Univariate Test Results 


Contrast 291.083 
142.333 71.167 


Error 61.500 3.417 
79.250 4.403 





结果 21-7 ”对照 分 析 结 果 及 多 变量 与 单 变量 分 析 结果 
结果 释疑 : 
结果 21-7 (a) 为 DRUG 的 偏 均 差 对 照 分 析 结 果 。 一 般 以 最 后 分 类 为 参考 ，Y1 与 Y2 
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多 变量 方差 分 析 ERA 


的 总 均 数 分 别 为 8.33, 8.04, 因此 , DRUG=1 时 , Y1 与 Y2 的 偏差 分 别 为 -2.708(=5.63-8.33) 
和 -2.417(=5.63-8.04) ; DRUG=2 时 , Y1 5; Y2 的 偏差 分 别 为 -2.208 (=6.13—8.33) 和 -0.917 
(=7.13-8.04) 。Sig. 提 供 了 它们 之 间 的 统计 学 差异 。 

多 变量 与 单 变量 的 分 析 结 果 ( 见 结果 21-7 (b) 和 结果 21-7 (c) ) 与 前 者 相同 。 


Post Hoc Tests 
药品 
Multiple Comparisons 


95% C nfidence Interval 
Dependent Variable (D 药品 (J) 药品 | Mean Difference (I-J) | Std. Error | | Sig. % C nfidence Interval 
Lower Bound | Upper Bound 


Ñ — Q — GQ NN — Ú — tU t 




















Based on observed means. 


* The mean difference is significant at the .05 level. 
结果 21-8 多 重 比较 结果 
结果 释疑 : 
如 同 在 单 变量 方差 分 析 一 样 ， 当 得 到 总 的 差异 后 可 进一步 做 均 数 间 的 多 重 比较 〈 见 结 
果 21-8) 。DRUG 因素 的 结果 提示 ，Y1，Y2 两 个 指标 在 DRUG 取 1,2 间 没 有 统计 学 差异 ， 
1 与 3、2 与 3 之 间 有 统计 学 差异 。 
































Profile Plots 
Estimated Marginal Means of Y 1 . : 
Estimated Marginal Means of Y2 
ie] 性 别 
一 LI 
---- 2 — 
Ji~ 124 一 一 一 
š 8 
Š nd 2 
z z 10— 
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z 三 。 
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1 一 -T T 
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药品 
结果 21-9 轮廓 图 
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结果 释疑 

轮廓 分 析 的 结果 非常 直观 〈 见 结果 21-9) ， 结 果 提 示 Yl 与 Y2 是 男性 高 于 女性 ; 药 
品 为 1 和 2 时 变化 平缓 ， 药 品 为 3 时 Y1 与 Y2 明显 增加 。 
21.2.2 ”配对 设计 资料 的 多 元 方差 分 析 


1. 实例 描述 

对 9 名 乳腺 癌 患 者 进行 大 剂量 化 疗 , 测量 化 疗 前 后 血液 中 尿素 氮 BUN 
(mg%) ifii LAT Gr (mg%) 水平 ， 结 果 见 表 21-3( 见 数据 文件 data21-3.xls 或 
data21-3.sav) 。 试 问 化 疗 是 否 对 患者 的 肾 功能 有 影响 ? 


表 21-3 乳腺 癌 患 者 化 疗 前 后 肾 功 能 检测 结果 














BUN Gr 
患者 标号 治疗 前 治疗 后 治疗 前 治疗 后 
1 11.70 10.60 1.30 0.80 
2 8.80 7.90 1.20 0.60 
3 13.20 11.80 0.90 0.80 
4 15.70 15.20 0.90 0.80 
5 9.70 6.50 0.80 0.60 
6 10.20 13.80 0.50 0.80 
7 12.40 13.70 1.20 1.10 
8 9.80 11.30 0.70 0.60 
9 14.60 13.80 0.90 0.80 





2. 操作 提示 
* 指定 GLM: Multivariate 过 程 操 作 提 示 
Analysis 
General Linear Model 
Multivariate … 


d 定义 模型 操作 提示 
BUN [DD]Dependent Variables 
Gr [>] Dependent Variables 


-NO [>] Fixed Factor(s) 
GROUP [»]Fixed Factor(s) 


Model © Custom 一 定义 模型 ， 默 认为 饱和 模型 
Factor & Covariate 
-NO [>] Model 一 定义 NO 5 GROUP 的 主 效应 


GROUP [»] Model 
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Build Term(s): Main effects 
Continue 
BOK 


结果 解释 
General Linear Model 
Multivariate Tests ° 


Vale | F ^| Hypothesis df = 


Intercept — Pillai's Trace .994 | 546.626" 2.000 7.000 




















Wilks' Lambda .006 | 546.626* 2.000 7.000 | .000 
Hotelling's Trace 156.179 | 546.626" 2.000 7.000 | .000 
Roy's Largest Root | 156.179 | 546.626* 2.000 7.000 | .000 










Pillai's Trace 
Wilks' Lambda 
Hotelling's Trace 


1.537 3.315 16.000 | 16.000 | .011 
.035 3.712* 16.000 | 14.000 | .008 
11.073 4.152 16.000 | 12.000 | .008 
9.347 9.347” 8.000 8.000 | .002 
.390 2:235' 2.000 7.000 | .178 
.610 2.235* 2.000 7.000 | .178 
.639 2.235* 2.000 7.000 | .178 
.639 2.235" 
















Roy's Largest Root 
GROUP  Pillai's Trace 
Wilks' Lambda 
Hotelling's Trace 
Roy's Largest Root 


































a. Exact statistic 
b. The statistic is an upper bound on F that yields a lower bound on the significance level. 
c. Design: Intercept-NO4 GROUP 


(a) 
Tests of Between-Subjects Effects 


Source Dependent Variable | Type III Sum of Squares Mean Square 


Corrected Model BUN 97.469* 
.595^ 
Intercept 2466.361 
13.005 
NO 97.344 
470 
GROUP .125 
.125 
Error 15.880 
.270 
Total 2579.710 
13.870 
Corrected Total 113.349 
.865 


5.456 
1.959 
1242.499 
385.333 
6.130 
1.741 
.063 
3.704 


o 00 — — 00 %0 = = O o 














a. R Squared = .860 (Adjusted R Squared = .702) 
b. R Squared = .688 (Adjusted R Squared = .337) 


(b) 
结果 21-10 配对 设计 资料 的 多 元 方差 分 析 结果 
结果 释疑 : 


配伍 或 配对 设计 为 两 因素 设计 ， 但 我 们 更 感 兴趣 的 结果 为 处 理 组 ， 即 治疗 前 后 有 无 差 
别 。 结 果 21-10 显示 ，4 个 假设 检验 统计 量 都 为 r=2.235，P=0.178， 故 尚 不 能 认为 该 化 疗 
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对 肾 功能 有 影响 。 
21.2.3 重复 测量 设计 资料 的 多 元 方差 分 析 


重复 测量 设计 资料 也 可 以 采用 多 元 方差 分 析 来 处 理 , 它 把 p 个 时 间 点 的 重复 测量 值 作 
为 p 个 变量 来 处 理 ， 而 且 在 多 元 方差 分 析 中 ， 对 p 个 变量 (p 个 时 间 点 ) 之 间 的 协 方差 矩 
阵 无 特殊 限制 , 容许 存在 各 种 相关 性 , 在 用 于 分 析 重 复 测量 资料 时 无 须 对 自由 度 进行 校正 。 
因此 ， 多 元 方差 分 析 为 重复 测量 资料 的 分 析 又 提供 了 一 个 有 用 的 工具 。 


1. 实例 描述 
见 例 20-2。 在 例 20-2 中 ， 采 用 了 重复 测量 方差 分 析 方法 。 
2. 操作 提示 
当 指定 GLM: Multivariate 过 程 操作 提示 
Analysis 
General Linear Model 
Multivariate … 


d 定义 模型 操作 提示 


“wgt0 [>] Dependent Variables 
Owegtl [^] Dependent Variables 
“Dwgt2 [>] Dependent Variables 
"Owgt3 [^] Dependent Variables 
Dwgt4 [>] Dependent Variables 
GENDER [P] Fixed Factor(s) 
BOK 


3. 结果 解释 〈 见 结果 21-11) 


General Linear Model 
Multivariate Tests ° 


Hypothesis df Error df 


Pillai's Trace 
Wilks' Lambda 
Hotelling's Trace 
Roy's Largest Root 
Pillai's Trace 
Wilks' Lambda 
Hotelling's Trace 
Roy's Largest Root 


Intercept 

















a. Exact statistic 
b. Design: Intercept--gender 
(a) 


结果 21-11 重复 测量 设计 资料 的 多 元 方差 分 析 结 果 





多 变量 方差 分 析 


Tests of Between-Subjects Effects 


Dependent Variable | Type III Sum of Squares 


Corrected Model Weight 13274.766* 13274.766 52.633 
Ist interim weight 13187.813* 13187.813 48.384 
2nd interim weight 12957.33T 12957.337 46.821 
3rd interím weight 13420.321* 13420.321 49.012 
Final weight 13224.009* 13224.009 51.179 

Intercept Weight 597334.766 597334.766 | 2368.373 
Ist interim weight 583684.063 583684.063 | 2141.434 
2nd interim weight 571809.587 571809.587 | 2066.206 
3rd interim weight 559491.571 559491.571 | 2043.310 
Final weight 548940.009 548940.009 | 2124.482 

gender Weight 13274.766 13274.766 52.633 
Ist interim weight 13187.813 13187.813 48.384 
2nd interim weight 12957.337 12957.337 46.821 
3rd interim weight 13420.321 13420.321 49.012 
Final weight 13224.009 13224.009 51.179 
Weight 3530.984 252.213 
1st interim weight 3815.937 272.567 
2nd interim weight 3874.413 216.744 
3rd interim weight 3833.429 273.816 
Final weight 3617.429 258.388 
Weight 646448.000 
1st interim weight 632444.000 
2nd interim weight 619784.000 
3rd interim weight 607846.000 
Final weight 596343.000 

Corrected Total Weight 16805.750 
1st interim weight 17003.750 
2nd interim weight 16831.750 
3rd interim weight 17253.750 
Final weight 16841.438 

. R Squared = .790 (Adjusted R Squared = .775) 

. R Squared = .776 (Adjusted R Squared = .760) 

. R Squared = .770 (Adjusted R Squared = .753) 

. R Squared = .778 (Adjusted R Squared = .762) 

e. R Squared = .785 (Adjusted R Squared = .770) 

















L gd e° 


a 


(b) 


结果 21-11 (HD 


结果 释疑 略 ， 读 者 可 依据 例 20-2 的 分 析 结 果 做 出 解释 。 


21.3 ”典型 相关 


进行 单 变量 复 相关 分 析 时 ， 有 p 个 X 变 量 和 一 个 了 变量 , 分 析 的 目的 在 于 找 出 适当 的 
回归 系数 作为 这 p 个 X 变 量 的 加 权 值 , 使 p 个 X 变 量 的 线性 组 合 与 这 一 个 了 变量 之 间 的 相 
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关 变 为 最 大 。 进 行 典型 相关 分 析 时 ， 也 有 己 个 和 变量 ， 但 是 了 变量 却 有 4 (2D. R 
型 相关 的 目的 在 于 找 出 这 疡 个 和 变量 的 加 权 值 和 这 q 个 了 变量 的 加 权 值 , 使 这 p 个 变量 
的 线性 组 合 与 这 9 个 了 变量 的 线性 组 合 的 相关 性 达到 最 大 值 。 

假设 有 两 组 变量 ， 一 组 变量 为 ,x2,，…,xp ， 另 一 组 变量 为 my，……y H q>p. X 
研究 x 变量 和 y 变量 之 间 的 线性 相关 关系 ， 可 根据 它们 的 n 组 观测 值 x;; 和 y ;或 经 过 标准 
化 变换 后 变量 和 yj BÉ) n 组 观测 值 x 和 yiiG=1,2…p 或 9，i=1,2…,n)， 求 出 系数 ax 和 
bg (k=1,2,…,p)， 得 到 x 和 y; 的 线性 组 合 所 表示 的 新 变量 ww 及 vi。 


, , + , 
uy =Y ax, = dikXI + a2 X2 oct üpkXp 
j 


w =$ bay; -buyi + bay) + +b y 
J 

对 各 ax 和 bx 的 要 求 如 下 。 

° 使 各 个 ww 及 vi 的 算术 平均 数 为 0， 标 准 差 为 1。 

o 使 任意 两 个 ww 彼此 独立 或 不 相关 ， 任意 两 个 Vv 彼此 独立 或 不 相关 ， 且 当 妈 有时， 
Ur, 及 vis 彼此 独立 或 不 相关 。 

° Fu, O vk HIX # B y, (=12,…,D) 满 足 关 系 式 12721, 2:2 y, 20, 
Wk uy Kv Nh BE, Foy, 为 典型 相关 系数 。 

在 理论 上 ， 典 型 变量 的 对 数 和 相对 应 的 典型 相关 系数 的 个 数 可 以 等 于 两 组 变量 中 数目 

较 少 的 那 一 组 变量 的 个 数 ， 其 中 ，ui 及 的 相关 系数 y 反映 的 相关 成 分 最 多 ， 称 为 第 一 对 
典型 变量 ，w 及 vy 的 相关 系数 y, 反映 的 相关 成 分 次 之 ， 称 为 第 二 对 典型 变量 ， 依 此 类 推 。 
在 诺 用 上 ， 只 保留 前 面 儿 对 典型 变量 ， 确 定 保留 对 子 数 的 方法 如 下 。 

。 对 典型 相关 系数 做 显著 性 检验 ， 看 显著 性 检验 的 结果 。 

e 结合 应 用 ， 看 典型 变量 和 典型 相关 系数 的 实际 解释 ， 通 常 所 求 得 的 典型 变量 的 对 子 
数 愈 少 愈 容易 解释 ， 最 好 是 第 一 对 典型 变量 能 反映 足够 多 的 相关 成 分 ， 只 保留 一 对 
典型 变量 便 比 较 理 想 。 

通过 典型 变量 之 间 的 典型 相关 系数 来 综合 地 描述 两 组 变量 的 线性 相关 关系 并 进行 检 

验 和 分 析 的 方法 ， 称 为 典型 相关 分 析 。 

1. 实例 描述 

以 例 20-2 为 例 , 试 分 析 甘 油 三 酸 脂 (tg0, tgl, tg2, tg3,tg4) 与 体重 (wgt0， 

wgtl, wgt2, wgt3, wgt4) 间 的 关系 。 

2， 操 作 提 示 

SPSS 的 菜单 方式 还 不 能 实现 典型 相关 分 析 ， 一 般 通 过 编程 (File 一 New 一 Syntax) 实 

现 ， 程 序 如 下 。 
INCLUDE 'C:\Program files\spss\canonical correlation.sps'. 


CANCORR SET1=tg0 tgl tg2 tg3 tg4 / 
SET2-wgtO0 wgtl wgt2 wgt3 wgt4 / . 
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注意: 应 该 确定 canonical correlation.sps 所 在 的 子 目 录 ， 这 里 是 SPSS 
”软件 安装 的 “Ci\Program files\spss\” 之 下 的 情况 ， 如 果 SPSS 软件 安装 在 其 


3. 结果 解释 
Run MATRIX procedure: 
Correlations for Set-1 
tg0 tgl tg2 tg3 tg4 
tg0 1.0000 2873 1203  -1683  -2862 
tgl 2873 1.0000 | 4854 3817 — -.1395 
tg2 -.1203  -4854 1.0000 -1202  -.1591 
tg3 — -.1683 3817 .1202 1.0000 .1837 
tg4 — -2862  -1395  ..1591 .1837 1.0000 
(a) 
Correlations for Set-2 
wgtO wgtl wgt2 wgt3 wgt4 
wgtO — 1.0000 .9974 .9985 9975 .9963 
wgtl .9974 1.0000 .9986 .9969 .9969 
wgt2 .9985 .9986 — 1.0000 .9985 .9984 
wgt3 9975 .9969 .9985 1.0000 .9979 
wgt4 .9963 .9969 .9984 .9979 1.0000 
(b) 
Correlations Between Set-1 and Set-2 
wgtO wgtl wgt2 wgt3 wgt4 
te0 .2189 .1988 .2068 .1908 2100 
tgl 0738 .1087 .0804 .0743 .0881 
tg2 -2146 -.2135 -.2085 -.1962  -.2030 
tg3 -0019 .0297 .0171 .0429 .0335 
tg4 -.3479 -.3573 -.3499 -.3392  .3542 
(c) 
结果 21-12 ”相关 系数 矩阵 
结果 释疑 : 


结果 21-12 为 甘油 三 酸 脂 (tg) 各 时 点 、 体 重 《wgt) 各 时 点 及 tg 与 wgt 之 间 的 相关 
系数 矩阵 。 


Canonical Correlations 
1 .833 
2 .631 
3 .557 
4 .214 
5 .053 
(a) 


结果 21-13 ”典型 相关 系数 
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Test that remaining correlations are zero: 


Wilk's — Chi-SQ DF Sig. 




















1 .121 20.068 25.000 343 
2 .395 8.823 16.000 .921 
3 .656 4.000 9.000 .911 
4 .951 474 4.000 .976 
5 .997 .027 1.000 .870 
(b) 
£55 21-13. (BD 
结果 释疑 : 
结果 21-13 是 实例 的 典型 相关 系数 。 
Redundancy Analysis (元 余 分 析 ) Proportion of 
Proportion of Variance of Set-1 Explained by Its Own Can. Var. Variance of Set-1 Explained by Opposite 
Can.Var. Prop Var 
Prop Var CV2-1 .158 
CVI- 228 CV2-2 .092 
CVI-2 231 CV2-3 .036 
CVI1-3 .117 CV2-4 .008 
CV1-4 .166 CV2-5 .001 
CV1-5 .259 
(a) (b) 
Proportion of Variance of Set-2 Explained by Its Own Can. Var. Proportion of Variance of Set-2 Explained by Opposite Can. Var. 
Prop Var Prop Var 
CV2-1 .027 CV1-1 .019 
CV2-2 .026 CV1-2 .010 
CV2-3 .856 CV1-3 -266 
CV2-4 .078 CV1-4 -004 
Cv2-5 012 CV1-5 .000 
(c) (d> 


结果 21-14 EBORE AMETE A 2 ET SS s 


结果 释疑 : 
结果 21-14 是 典型 相关 分 析 的 熏 余 分 析 结 果 。 
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22.1 概述 


22.1.1 时 间 序 列 数据 及 其 分 析 方 法 


所 谓 时 间 序 列 ， 是 指 一 个 依 时 间 顺 序 组 成 的 观察 数据 集合 。 很 多 数据 以 时 间 序 列 形式 
呈现 ， 如 货运 码头 的 逐 月 吞吐 量 ， 公 路 交通 事故 次 数 周 度 报告 ， 城 市 空气 污染 物 (如 SO» 
的 日 均值 序列 ， 医 院 每 日 门诊 接 诊 人 数 序列 ， 城 市 电网 每 日 输电 量 ， 地 区 工业 总 产值 的 年 
度数 据 序列 ， 逐 年 人 口 统计 资料 〈 见 表 22-1)， 等 等 。 时 间 序 列 区 别 于 普通 资料 的 本 质 特 
征 是 相 邻 观测 值 之 间 的 依赖 性 ， 或 称 自 相关 性 ， 这 种 特征 使 得 时 间 序 列 资料 的 统计 分 析 方 
法 区 别 于 一 般 数据 的 统计 分 析 方 法 。 事 实 上 ， 有 关 时 间 序 列 分 析 的 特殊 技巧 ， 几 乎 都 是 基 
于 对 自 相 关 性 处 理 的 技巧 。 


表 22-1 上 海 市 1978-2004 年 人 口 、 经 济 统 计 资 料 
年 末 人 口 数 ” 非 农业 人 口 数 人 口 密度 。 ”财政 收入 ”财政 支出 — 生产 总 值 ”人 均 生 产 总 值 ”税收 


年 度 (万 人 ) (万 人 ) (人 /平方 公里 ) ALW) 〈 亿 元 ) 〈 亿 元 ) (元 ) 〈 亿 元 ) 
1978 1098.28 645.23 1776 190.67 26.01 272.81 2498 51.51 
1979 1132.14 687.38 1830 192.75 27.06 286.43 2568 53.73 
1980 1146.52 702.43 1854 198.85 19.18 311.89 2738 57.59 
1981 1162.84 715.08 1880 204.52 19.06 324.76 2813 62.21 
1982 1180.51 731.31 1908 200.69 20.68 337.07 2877 65.00 
1983 1194.01 745.86 1930 204.34 22.39 351.81 2963 67.04 
1984 1204.78 760.75 1948 215.79 30.32 390.85 3259 76.90 
1985 1216.69 716.37 1967 263.86 46.07 466.75 3855 102.16 
1986 1232.33 802.56 1944 251.72 59.08 490.83 4008 108.66 
1987 1249.51 822.31 1971 241.36 53.85 545.46 4396 114.00 


1988 1262.42 838,93 1991 261.69 65.88 648.30 5161 126.72 
一 -一 
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续 表 

年 末 人 口 数 。” 非 农 业 人 口 数 人 口 密度 财政 收入 财政 支出 。 生产 总 值 ”人 均 生 产 总 值 ”税收 

Ma (万 人 ) (万 人 ) (人 /平方 公里 ) Q) 〈 亿 元 ) 〈 亿 元 ) GU 〈 亿 元 ) 
1989 1276.45 855.84 2013 297.25 73.31 696.54 5489 143.23 
1990 1283.35 864.46 2024 284.36 75.56 756.45 5910 152.37 
1991 1287.20 869.88 2030 324.66 86.05 893.77 6955 161.17 
1992 1289.37 875.55 2034 340.13 94.99 1114.32 8652 182.63 
1993 1294.74 893.46 2042 439.53 129.26 1511.61 11700 255.70 
1994 1298.81 910.49 2048 615.91 196.92 1971.92 15204 179.95 
1995 1301.37 921.70 2052 702.46 267.89 2462.57 18942 226.72 
1996 1304.43 932.14 2057 873.76 342.66 2902.20 22275 271.28 
1997 1305.46 943.03 2059 1070.95 428.92 3360.21 25750 303.64 
1998 1306.58 953.65 2061 1146.00 480.70 3688.20 28240 339.34 
1999 1313.12 969.63 2071 1390.58 546.38 4034.96 30805 365.29 
2000 1321.63 986.16 2084 1752.70 622.84 4551.15 34547 417.00 
2001 1327.14 999.07 2093 1995.62 726.38 4950.84 37382 458.28 
2002 1334.23 1018.81 2104 2202.25 871.84 5408.76 40646 554.70 
2003. 1341.77 1041.39 2116 2828.87 1102.64 6250.81 46718 686.64 
2004 1352.39 1097.60 2133 3325.14 1395.69 7450.27 55307 842.74 


注 ， 资 料 来 自 上 海 市 统计 年 鉴 2005 


时 间 序 列 分 析 按 分 析 目 的 之 不 同 ， 可 以 划分 为 时 域 分 析 和 频 域 分 析 两 个 类 别 ， 前 者 将 
序列 的 观察 值 视 为 历史 值 的 函数 ， 重 点 分 析 事 物 随时 间 发 展 变迁 的 趋势 ， 常 用 于 人 口 、 经 
济 、 气 象 等 研究 领域 ， 后 者 则 将 序列 看 成 不 同 频率 的 正弦 或 余弦 波 玲 加 的 结果 ， 重 点 分 析 
其 频率 特征 ， 常 用 于 电力 、 工 程 等 方面 。 本 章 重 点 介绍 时 间 序 列 的 时 域 分 析 方法 。 

移动 平均 法 、 指 数 平滑 法 是 早期 时 间 序 列 分 析 的 主流 方法 。 在 20 世纪 70 年 代 后 ， 由 
T Box 和 Jenkins 的 工作 及 电子 计算 机 的 逐步 普及 ，ARIMA 〈 求 和 自 回归 滑动 平均 模型 ) 
被 大 量 用 于 时 间 序 列 资料 的 分 析 ， 现 在 一 般 提 到 的 时 间 序 列 模型 ， 都 是 指 ARIMA 模型 或 
它 的 某 种 表述 形式 。 

预测 是 时 间 序 列 分 析 的 重要 内 容 ， 几 乎 所 有 的 时 域 分 析 方 法 ， 首 先 都 是 用 于 预测 。 主 
流 时 间 序 列 分 析 方 法 对 数据 资料 要 求 严 格 ， 不 允许 有 缺失 值 ， 所 以 ， 缺 失 值 填补 也 是 时 间 
序列 分 析 的 内 容 之 一 ， 而 缺失 值 填补 也 是 基于 预测 的 。 


22.1.2 时间 序 列 分 析 的 模型 、 公 式 和 记号 


1， 随 机 序列 、 自 协 方差 函数 、 自 相关 函数 和 平稳 序列 的 定义 
WIX,: Xi, X2 ABRBUF TU, HONRAR, EX? <+oo (E 表示 数学 期 望 ， 


下 同 )， 则 均值 函数 jw,、 自 协 方差 函数 %。、 自 相关 函数 o, 有 如 下 定义 。 
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n = Í” zp()ax (22-1) 
fis = E(X, — B, X X. — Hs) (22-2) 
特别 地 ， 当 t=s, Y= YyY=varX, 时 ， 称 varX, (X) 28 8 31. 
fis 
Ps = (22-3) 
AN Yir ss 
WR LXRBEBUT FU (X, HAE: 


e 对 任意 整数 EX-u. ud 
e 对 任意 整数 r, s, =Y Ü 即 % 仅 与 1:-s 有 关 , 而 与 个 别 时 刻 t, s 无 关 ， 则 称 序列 {X} 
为 宽 平 稳 序 列 ， 简 称 为 平稳 序列 。 


2 — 
特别 地 ， 当 EX=O, nx, lo ' LL 称 {X} 为 白 噪声 。 


2. 平稳 时 间 序 列 一 一 ARMA 过 程 
设 {xz} 为 零 均值 平稳 序列 ，{a} 为 白 噪 声 ，Exsas=0 (ras), WE 
X —984 713-2 Pphp = d, —Ba,-i-0a-, —***— Oya-g (22-4) 
Jl] (x,) 29 p 阶 自 回 归 一 一 gq 阶 滑动 平均 过 程 , 简 记 为 ARMA(P,q)。{z} 称 为 ARMA(p,q) 序 列 ， 
非 负 整数 p, q 分 别称 为 自 回 归 阶 数 和 滑动 平均 阶 数 ， 参 数 o, p Op 称 为 自 回归 系数 ， 
01,6,,…,09 称 为 滑动 平均 系数 。 
24 p=0 时 ， 则 ARMA(0,4) 模 型 


x =G 一 Ga- 一 020-2 —: 70,44 (22-5) 
称 为 了 阶 滑动 平均 模型 ， 记 为 MA(O)。 当 q-0 FF, MU ARMA(p, 0) 模 型 
x 72a 72322 777 9p-p =de (22-60 


称 为 疡 阶 自 回归 模型 ， 记 为 AR(p). 
BIA EBAT B, $ xi=xrb Baarn B'c-c (c 为 常数 )， 并 令 
9(B)=1 一 9B 一 92B 一 … 一 ppB2 
6(B) 31—6,B —06; B? —...—0,B* 
则 ARMA(p,q) 模 型 简 记 为 
9(B)xX =0(B)a 或 x-q'(B)O(B), (22-7) 
35 p(B) 的 特征 方程 
1-@B-o0B2-—...— 0, BP «0 
Pp 个 根 都 在 单位 图 外， 则 模型 是 平稳 的 。 
di 0(B) 的 特征 方程 
1-6,B - 6B? —...—0,B* =0 
q 个 根 都 在 单位 圆 外 ， 则 模型 是 可 逆 的 。 
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3. 非 平稳 时 间 序 列 一 一 ARIMA 过 程 
定义 差分 算 子 V 为 
Vz, = Z, — Z+ 
则 差分 算 子 VY 和 后 移 算 子 B 有 以 下 关系 式 : 
V =1-B,V? =(1- B, V? =(1- By 
称 d 为 差分 的 价 。 
设 {z) 为 非 平稳 序列 ，{xw} 为 ARMA(p,g) 序 列 ， 存 在 正 整 数 4， 使 得 
x =V; t> d 
则 有 
9(B)(-B)4z =0(B)a, (22-8) 
称 此 模型 为 求 和 自 回归 滑动 平均 模型 ， 记 为 ARIMA(p,d,q)。 
4. ARMA 模型 的 识别 、 参 数 估计 和 诊断 
(1) 自 相关 函数 和 偏 自 相关 函数 的 定义 
设 p, 是 {x} 的 自 相关 函数 ， 则 
E(x; — Ex, )Xx,-k — Ex) 


p, = (22-9) 
k | 2 2 
E(x; — Ex)" EG y — Ex,-k) 
4 
£, & E(x; Vx ai Xie) 
$4 Š ÉGi a zai xay) 
id hi = X, 2d 
Nik = Xi-k — Xt-k 
W Bux 是 {x} 的 偏 自 相关 函数 ， 则 
Ex. (22-10) 


n V EX? EXA 

样本 p, 和 gu 的 估计 由 Yule-Walker 方程 递 推 解 出 。 

(2) ARMA 模型 的 识别 

根据 Box-Jenkins 提出 的 方法 ， 用 样本 的 自 相关 函数 和 偏 自 相关 函数 的 截 尾 性 来 初步 
识别 ARMA 模型 的 阶 数 。 若 平稳 序列 {z} 的 px E q PRE, M Ga 拖 尾 , 则 识别 {xy} 为 MA(q) 
序列 ; pÆ, Moa 5E p HRE, MRI XA ARFA; Æ px #lóa 均 拖 尾 ， 则 判 
Ër [x,] g ARMA(p,q) 序 列 。 首 先 可 以 经 验 性 给 出 p, q 的 初步 识别 ， 然 后 通过 模型 诊断 反复 
识别 ， 找 出 最 优 的 p, g 组 合 来 确定 。 

(3) 参数 估计 

参数 估计 即 为 ARMA 模型 的 条 件 似 然 函 数 和 条 件 最 小 二 乘 估 计 。ARIMA 模型 可 表示 
为 以 下 差分 方程 形式 : 


G, = W; — pw bpwip +Oar1 ++ Ogag (22-11) 
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其 中 ，w =Vdz ，1=12…,7。 
在 给 定 w 的 p 个 初始 值 w* 和 a 的 gq 个 初始 值 a* 的 条 件 下 ,对 于 任意 给 定 的 参数 (8,0 ) 
和 初始 值 (wt, a*)。 假 设 a 为 正 态 分 布 ， 其 概率 密度 为 


A 


a? 
[257 


p(ai,a2,:::,a4) 04" € n (22-12) 
则 与 参数 〈%,6,Gu ) 相 联系 的 对 数 条 件 似 然 函 数 是 

(9.8.02) - nino?) - 69) (22-13) 
其 中 

S.(0,0)= Y a? (9,0 1w«. as, w) | (22-14) 


t=1 


8«(9,0) 称 为 条 件 平方 和 函数 ， 使 其 最 小 化 ， 可 得 参数 的 条 件 最 小 二 乘 估计 。 


(4) 模型 的 诊断 : 残 差 的 自 相 关 检 验 
对 模型 的 残 差 序列 计 算 其 m 个 自 相关 函数 估计 值 p ， 构 造 统计 量 


Q-nY Pe (22-15) 
k=1 
它 服从 v = m— pq 的 x i. 


5. 带 有 ARMA 误差 的 回归 模型 一 一 ARIMAX 模型 
如 果 一 个 回归 方程 的 误差 是 一 个 ARMA 过 程 或 ARIMA 过 程 ， 则 称 此 模型 为 带 有 
ARMA 误差 的 回归 模型 。 本 模型 的 数学 表示 为 
y = Xi D N, (22-16) 
X 为 输入 序列 或 解释 变量 序列 ，2 为 滞后 参数 ， 如 果 b 为 零 ， 则 输入 序列 的 效应 即时 
反映 在 y 序列 上 ; 如 果 b 大 于 零 ， 则 表示 输入 序列 的 效应 经 过 b 个 时 灌 后 才 在 y HE) Ef 
BM. B 为 回归 系数 或 回归 系数 向 量 ，N, 为 系统 噪声 ， 如 果 N, 为 ARMA 噪声 ， 即 
N,-29 (B)6(B)as， 其 中 a 为 白 噪声 ， 此 模型 则 称 为 附加 ARMA 噪声 的 回归 模型 ， 简 称 
为 ARIMAX 模型 。 
实际 上 ， 带 有 ARMA 误差 的 回归 模型 是 一 种 简单 的 传递 函数 模型 (Transfer Function 
Model)。 当 输入 序列 对 响应 序列 的 作用 为 有 一 定时 滞 的 累积 效应 时 ， 使 用 传递 函数 更 为 方 
便 。 对 于 动态 系统 ， 用 线性 近似 来 刻画 输出 y 和 输入 x 的 关系 时 ， 可 以 用 一 个 线性 滤波 器 
来 表示 。 
Yi = Vox; + VIX;,-1 + VAX 十 … 
= (vo +vIB+v>B2 x, (22-17) 
= v(B)x, 
在 上 式 中 ， 某 时 刻 c 的 输出 表示 成 时 刻 t,t-1,… 输 入 的 线性 组 合 ， 算 子 v(B) 称 作 传 递 
函数 。 
传递 函数 的 因子 表示 可 以 得 到 参数 简约 的 传递 函数 形式 ， 即 
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wo+wB+.…+wB” _ w(B) 
1-ôıB—----6,B" 5(B) 
这 样 就 将 v(B) 的 无 穷 多 个 参数 简化 成 为 r+s+1 个 参数 。 

SPSS 的 ARMA 过 程 没有 提供 估计 形 如 公式 (22-180. 的 传递 函数 的 功能 ， 对 于 有 累 
积 响 应 的 情况 ， 仍 然 可 以 设法 拟 合 简单 的 传递 函数 模型 。 例 如 ， 如 果 有 理由 认为 某 输入 序 
列 的 效应 既 有 了 瞬时 响应 又 在 3 个 时 滞 内 有 累积 响应 〈 如 提高 利率 后 ， 导 致 企业 投资 在 当年 
以 及 随后 的 3 年 中 萎缩 )， 那 么 可 以 利用 原始 输入 序列 产生 3 个 滞后 序列 ， 用 这 4 个 序列 
和 响应 序列 建立 ARIMAX 模型 。 和 传递 函数 模型 相 比 ， 这 种 建 模 方式 简便 、 易 理解 ， 使 
用 SPSS 完全 可 以 实现 ， 缺 点 是 可 能 会 出 现 参数 见 余 ， 参 数 假设 检验 不 易 有 统计 学 意义 。 

识别 传递 函数 或 输入 序列 的 时 滞 效 应 的 基本 工具 是 输入 和 输出 序列 的 互 协 方差 函数 
和 互相 关 函 数 ， 对 输入 序列 的 预 白 品 化 处 理 可 以 简化 识别 传递 函数 的 过 程 。 一 旦 传递 函数 
的 形式 得 到 确定 ， 即 可 通过 条 件 最 小 二 乘法 对 传递 函数 和 噪声 进行 拟 合 。 

e. 季节 模型 

时 间 序 列 常 呈 周 期 性 变化 ， 或 称 为 季节 性 趋势 。 用 普通 的 ARIMA 模型 处 理 这 种 季节 
性 趋势 会 导致 参数 过 多 ， 模 型 复杂 。 季 节 性 乘积 模型 可 以 得 到 参数 简约 的 模型 。 季 节 人 性 乘 
积 模型 表示 为 


v(B)= (22-18) 


$p (B)®p (B* )V' V? z, = 0,(B)Əç(B')a, (22-19) 
其 中 , p, d, q 保持 原 有 含义 ，P, D, Q 分 别 表示 以 s 为 间距 的 自 回 归 、 差 分 和 移动 平均 


算 子 的 阶 数 ，s 为 季节 参数 ， 如 果 是 月 度 资料 ， 要 描述 年 度 特征 ， 则 s=12; 如 果 是 日 志 
料 ， 欲 描述 每 周 特征 ， 则 s=7。 季 节 性 乘积 模型 简 记 为 (p,d,q)x(P,D,Q),。 


22.1.3 SPSS 时 间 序 列 分 析 功 能 


SPSS 时 间 序 列 分 析 的 主 模 块 为 Analyze 中 的 Time Series 模块 ， 提 供 Exponential 
Smoothing (指数 平滑 )、Autoregression〔 自 回归 )、ARIMA (ARIMA 模型 和 带 ARMA ix 
差 的 回归 模型 ) 和 Seasonal Decomposition( 季 节 性 结构 分 量 模型 )4 种 分 析 方 法 ( 见 图 22-1)。 


Bie Et Yie Data Irensfors ESTAR 
ETULESPUE 


515 na 





图 22-1 SPSS 时 间 序 列 分 析 主 模块 
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时 间 变 量 的 定义 由 Data 菜单 下 的 Define Dates 完成 。 在 Transform 菜单 下 ，Date/Time 
提供 对 时 间 变 量 的 运算 功能 ，Creat Time Series 提供 时 间 序 列 的 有 关 计算 功能 ， 如 产生 差 
分 序列 、 移 动 平均 序列 、 滞 后 序列 或 进行 序列 修 匀 等 处 理 ，Replace Missing Values 提供 缺 
失 值 填补 功能 。 

在 Graphs 菜单 下 ，Time Series 子 菜单 下 有 Autocorrelations、Cross-Correlations 和 
Spectral 三 个 下 拉 菜单 ， 分 别提 供 〈 偏 ) 自 相 关 图 、 互 相关 图 和 谱 密度 〈 周 期 ) 图 分 析 功 
能 。 另 外 ，Sequence 子 菜单 提供 了 时 间 序 列 数据 的 专用 线 图 作 图 功能 。 


22.2 ”时 间 序 列 数据 的 预 处 理 


时 间 序 列 数据 和 普通 数据 不 同 ， 它 有 严格 的 顺序 ， 并 且 需 要 定义 时 间 变 量 让 软件 读 懂 
其 时 间 顺 序 ， 特 别 对 于 季节 性 模型 ， 必 须 使 用 SPSS 软件 内 部 的 时 间 变 量 。 一 些 时 间 序 列 
分 析 方法 〈 如 自 回归 模型 ) 要 求 数据 没有 缺失 值 ， 通 常 在 时 间 序 列 分 析 前 需要 对 数据 填补 
缺失 值 。 另 外 ， 根 据 时 间 序 列 的 顺序 特点 ， 可 以 产生 移动 平均 序列 、 滞 后 或 领先 序列 ， 这 
些 都 属于 时 间 序 列 资料 的 预 处 理工 作 。 


22.2.1 定义 日 期 变量 


定义 日 期 模块 ( 见 图 22-2) 可 以 产生 周期 性 的 时 间 序 列 日 期 变量 。 使 用 定义 日 期 对 话 
框 定义 日 期 变量 需要 在 数据 窗 中 读 入 一 个 按 某 种 时 间 顺 序 排列 的 数据 文件 ， 数 据 文件 中 的 
变量 名 不 能 与 系统 默认 的 时 间 变 量 名 重 名 ， 否 则 系统 建立 的 日 期 变量 会 覆盖 同名 变量 。 系 
统 默认 的 变量 名 有 : YEAR_, QUARTER_, MONTH_, WEEK_, DAY_, HOUR_, MINUTE , 
SECOND fi DATE . 

图 22-2 中 有 两 个 栏目 ，Cases Are 栏 定义 时 间 变 量 的 间隔 ，First Case Is 要 求 填 入 相应 
的 起 始 日 期 值 ， 当 选 定时 间 间 隔 和 起 始 日 期 后 ， 系 统 便 能 自动 按 选 定 的 时 间 间 隔 产生 相应 
的 日 期 变量 。Current Dates 在 图 22-2 的 左下 方 ， 显 示 已 经 存在 的 日 期 变量 。 如 果 数 据 集 从 
未 定义 过 日 期 变量 ， 则 Current Dates 显示 为 None (无 )。 





图 22-2 定义 日 期 对 话 框 
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% 定义 日 期 变量 的 操作 过 程 


Data 

Define Dates 

“O Years,months 
Year: 输入 2001 
Month: 输入 1 
OK 


3» Cases Are 中 各 选项 的 意义 


“Years 

"B Years,quarters 

"f Years,months 

"B Years,quarters,months 
Days 

“©Weeks,days 
“Weeks,work days(5) 
“©Weeks,work days(6) 
“Hours 

“©Days,hours 
-Days,work hour(8) 

"5 Weeks,days,hours 
"&Weeks,work days,hours 
Minutes 
-Hours,minutes 
Days,hours,minutes 
Seconds 
“©Minutes,seconds 
-Hours,minutes,seconds 
Not dated 

Custom 


创建 时 间 序 列 


一 在 菜单 栏 上 单 击 Data 

二 弹出 定义 日 期 对 话 杠 

号 选择 日 期 格式 为 年 、 月 

一 定义 数据 的 起 始 年 份 为 2001 年 

号 定义 数据 的 起 始 月 份 为 1 月 ' 

一 结果 在 数据 集中 生成 YEAR_, MONTH. 和 DATE 3 
个 日 期 变量 


一 时 间 间 隔 为 年 

一 时 间 间 隔 为 季度 ， 以 年 为 周期 

一 时 间 间 隔 为 月 ， 以 年 为 周期 

一 时 间 间 隔 为 月 ， 以 季度 和 年 为 周期 

一 时 间 间 隔 为 天 

一 时 间 间 隔 为 天 ， 以 周 为 周期 

他 时 间 间 隔 为 工作 日 (5 天 工作 日 )， 以 周 为 周期 
时 间 间 隔 为 工作 日 (6 天 工作 日 )， 以 周 为 周期 
一 时 间 间 隔 为 小 时 

一 时 间 间 隔 为 小 时 ， 以 天 为 周期 

一 时 间 间 隔 为 工作 时 (8 小 时 工作 制 )， 以 天 为 周期 
一 时 间 间 隔 为 小 时 ， 以 天 、 周 为 周期 

全 时 间 间 隔 为 小 时 ， 以 工作 日 、 周 为 周期 

一 时 间 间 隔 为 分 钟 

一 时 间 间 隔 为 分 钟 ， 以 小 时 为 周期 

二 时 间 间 隔 为 分 钟 ， 以 小 时 、 天 为 周期 

c Bj ji] ja] f 29 

一 时 间 间 隔 为 秒 ， 以 分 钟 为 周期 

一 时 间 间 隔 为 秒 ， 以 分 钟 、 小 时 为 周期 

一 删除 已 有 的 时 间 变 量 

呈 通 过 命令 语句 (编程) 产生 日 期 变量 


Create Time Series 模块 ( 见 图 22-3) 的 功能 为 以 现 有 数据 为 基础 , 产生 新 的 时 间 序 列 ， 
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如 差分 序列 、 领 先 序列 、 滞 后 序列 、 移 动 平均 序列 等 。 差 分 序列 主要 用 于 序列 的 平稳 化 变 


时 间 序 列 分 析 EA 


换 ， 领 先 和 滞后 序列 主要 用 于 探讨 多 个 序列 间 的 关系 并 以 此 建立 模型 ， 移 动 平 均 序列 主要 
用 于 序列 的 修 匀 和 提供 简单 的 预测 功能 。 


| Time Series 





x 
y 
> L] 
[4È YEAR. not periodic [YEAR_] | 
P MONTH, period 12 [MI 





图 22-3 ”创建 时 间 序 列 对 话 框 


在 图 22-3 中 , 左 侧 为 数据 集中 变量 列表 ,前 4 个 变量 为 原始 变量 ， 后 2 个 变量 为 通过 
Define Dates 模块 定义 的 SPSS 系统 日 期 变量 。 变 量 列表 中 列 出 的 是 变量 的 标签 ， 最 后 的 
变量 为 Month (H), A period 12 的 描述 ， 表 示 周 期 为 12 个 月 ， 即 1 年 。 图 的 右 侧 从 上 至 
下 分 为 两 部 分 ， 上 面 的 New Variables 为 新 生成 序列 的 序列 (变量 ) 名 及 其 描述 ， 如 图 中 的 
x_1 为 变量 名 ， 等 号 后 面 是 标签 DIFF(x D)， 其 中 括号 左 侧 描述 序列 的 性 质 ， 括 号 内 为 原始 
变量 名 和 有 关 参 数 ， 即 DIFF(x 1) 描 述 此 变量 为 原始 变量 x 的 1 阶 差分 序列 。 下 面 的 Name 
and Function 为 指定 新 序列 变量 名 和 产生 新 序列 的 规则 。 新 序列 的 变量 名 系统 默认 为 原始 
变量 加 下 划 线 加 序号 ， 如 原始 变量 为 x， 新 序列 的 变量 名 为 x_1，x_2 等 ， 也 可 以 自行 命名 
后 ， 单 击 Change 按钮 完成 。Function 为 一 下 拉 列 表 ， 定 义 了 产生 新 序列 的 规则 (函数 )， 
Order 和 Span 为 与 有 关 函 数 相 关 的 参数 , 需要 填写 。 最 后 一 项 Current Periodicity 指明 当前 
数据 的 时 间 周 期 。 


a 创建 时 间 序列 的 操作 过 程 


Transform = # % 35 k £ Transform 
“Create Time Series 一 弹出 创建 时 间 序 列 对 话 框 
“OFunction [V] Difference 号 选择 函数 

-Order: 输入 1 一 指定 函数 参数 

Dix P 定 选 择 待 处 理 的 原始 序列 

DOK 号 结果 在 数据 集中 产生 新 时 间 序 列 


Function 中 各 选项 的 意义 和 使 用 方法 如 下 。 

° Difference， 产 生 差 分 序列 ， 即 Vz, = zx -zao WEE Order 框 中 填 入 差分 的 阶 。 

* Seasonal difference， 产 生 季 节 性 差分 序列 ， 即 Viz; =z 一 zi_;，s 为 季节 参数 ， 如 时 
间 按 月 计 ， 周 期 为 年 ， 则 s=12。 注 意 ， 欲 产生 季节 性 差分 序列 ， 日 期 /时 间 变 量 及 
周期 需要 使 用 Define Dates 模块 提前 指定 。 此 处 也 需要 在 Order 框 中 填 入 差分 的 阶 。 
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< EE: 通常 讲 的 差分 ， 是 当前 的 数据 减 去 前 一 时 间 数 据 的 含义 ， 即 差分 
总 ”的 间隔 为 1; 而 季节 性 差分 ， 为 当前 “季节 ” 减 去 前 一 “季节 ”的 结果 ， 差 分 
的 间隔 和 季节 周期 的 选取 有 关 ， 如 果 数 据 按 天 计 ， 周期 为 周 ， 则 季节 性 差分 间 
隔 为 7。 差 分 的 阶 指 差分 的 次 数 ，1 阶 差 分 为 对 原始 数据 做 1 次 差分 处 理 ，2 
阶 差分 为 对 1 阶 差分 序列 再 做 1 次 差分 处 理 ，3 阶 差分 为 对 2 阶 差分 序列 再 
做 1 次 差分 处 理 ， 等 等 。 差 分 的 阶 和 差分 的 间隔 是 两 个 不 同 的 概念 。 差 分 序 
列 必然 会 产生 一 定数 量 的 缺失 值 ， 缺 失信 的 数量 = 差分 间隔 x 差分 的 阶 。 


* Centered moving average， 产 生 以 当前 值 为 中 心 的 移动 平均 序列 ， 需 要 在 Span 框 中 
填 入 窗 宽 参数 。 窗 宽 ， 是 指 计算 移动 平均 数 时 使 用 数据 的 个 数 ， 如 果 Span=5， 则 
使 用 当前 值 及 前 后 相 邻 的 2 个 值 共 5 个 值 计 算 移 动 平 均 数 。 通 常 取 奇 数 窗 宽 ， 如 果 
窗 宽 为 偶数 ， 则 先 做 均 数 插值 再 由 这 些 插值 求 移动 平均 数 。 例 如 ， 窗 宽 为 4， 则 以 
中 心 位 置 同时 向 前 、 向 后 做 两 次 插值 ， 插 值 的 方法 为 相 邻 两 个 数 求 平均 ， 共 得 到 4 
个 插值 ， 再 求 这 4 个 插值 的 均 数 即 可 。 又 如 窗 宽 为 8， 则 以 中 心 位 置 同 时 向 前 、 向 
后 做 4 次 插值 ， 共 有 8 个 插值 ， 再 求 这 8 个 插值 的 均 数 …… 中 心 移动 平均 序列 会 在 
序列 的 两 端 产生 同等 个 数 的 缺失 值 ， 当 窗 宽 为 偶数 时 ， 缺 失 值 的 个 数 等 于 窗 宽 ， 当 
窗 宽 为 奇数 时 ， 缺 失 值 的 个 数 等 于 窗 宽 减 1。 

° Prior moving average， 产 生 以 当前 值 之 前 的 数 个 相 邻 的 值 计 算 的 移动 平均 序列 ， 需 
要 在 Span 框 中 指定 窗 宽 ， 在 序列 的 开始 处 会 产生 和 窗 宽 相等 数目 的 缺失 值 。 

* Running medians， 类 似 Centered moving average， 只 不 过 此 处 计算 的 是 相应 的 中 位 数 。 

* Cumulative sum， 计 算 累 积 和 序列 〈 当 前 值 及 所 有 历史 值 之 和 )。 

。Lag， 产 生 灌 后 序列 ， 即 将 前 时 点 的 值 作 为 当前 值 ，k 为 滞后 的 阶 ， 需 要 在 Order 
框 中 指定 。 序 列 的 前 端 将 产生 天 个 缺失 值 。 

° Lead， 产 生 领 先 序列 ， 即 将 后 大 时 点 的 值 作 为 当前 值 , k 为 领先 的 阶 ， 需 要 在 Order 
框 中 指定 。 序 列 的 末端 将 产生 大 个 缺失 值 。 

* Smoothing， 产 生 基 于 混合 数据 平滑 法 计算 的 平滑 序列 ， 此 种 平滑 方法 又 称 为 
T4253H 法 。 

T4253H 是 综合 中 位 数 多 次 修 匀 和 汉 宁 加 权 修 匀 的 结果 ,由 Velleman (1980 年 ) 提出 ， 


具体 步骤 如 下 。 


设 原 始 序 列 匀 ,,t =1,2,…,n， 首 先 产生 窗 宽 为 4 的 中 心 移 动 中 位 数 序列 z@ 。 
zjt0s = median(X 4, X;j,Xja,X ji), j92,3,,n-2 


特别 地 ， 令 


(0) 
Eos 一 Ki 


z, =(Xı + X2)/2 


(0) 


Z os =(X,- +X,)/2 


586 | 





时 间 序列 分 析 HERES 


(0) 


z s = Xn 


n+0. 


然后 ， 由 序列 z 中 产生 窗 宽 为 2 的 移动 中 位 数 序列 9), Rrp 


1 0 0 n 
zP = (zs + 200.12, j=2,3,.…,n—1 


特别 地 ， 令 
EE 
ZA? = tees 
接 下 来 ， 以 窗 宽 为 5 的 移动 中 位 数 平滑 序列 zx ， 得 到 序列 z2 ， 其 中 
z) = median(z(^,,200,,200,20,, 205), j=3,.…,n—2 
特别 地 ， 令 
z) = zÜ) 
z) = Z 


zP = median(z®, z, z) 
z?) = median(z®,,z®,, 22) 。 
再 继续 ， 以 窗 宽 为 3 的 移动 中 位 数 来 平滑 序列 z， 产 生 序列 z， 其 中 


(3) 一 ; (2) „(2) „(2) ; = 
Zj = median (z; Z} ja j72,-,n-1 


特别 地 ， 令 
zl? = median(Gzf? — 229), 2127, 292) 
z) = median((3z(2), — 2255). 25 25 
最 后 ， 对 序列 进行 Hanning 加 权 修 匀 ， 产 生 最 终 的 T4253HCO 序 列 ， 方 法 是 
1 1 1 : 
T4253H(X )) = 工区 ez tn j722,-,n-1 


特别 地 ， 令 
T4253H(X;) = z 
T4253H(X,) = zÉ 

观察 表 22-1 数据 中 变量 “年 末 人 口 数 ”的 1. 2 阶 差分 序列 〈 数 据 文 
件 分 别 为 data22-1.xls 和 data22-1.sav )。 

打开 数据 文件 data22-1.sav， 单 击 Transform 下 的 Create Time Series， 选 入 变量 X (年 
末 人 口 数 )， 选 定 函 数 为 差分 Difference， 差 分 的 阶 Order-1 或 2， 规 定 差 分 序列 的 变量 名 
(也 可 以 由 程序 自动 生成 )， 然 后 单 Change 按钮 ， 再 单 OK 按钮 。 

在 SPSS 数据 表 中 ， 发 现 添 加 了 新 的 变量 DIFF(x,?),“? ”为 差分 的 阶 。 这 就 是 原始 
变量 X 的 差分 序列 。 可 以 通过 做 时 间 序 列 的 序列 图 (Sequence Chart) 来 观察 原始 序列 和 
差分 序列 的 形态 ， 初 步 认识 序列 特征 。 具 体操 作为 ， 单 击 主 菜单 Graphs 下 的 Sequence, 
在 打开 的 对 话 框 中 将 原始 变量 或 其 差分 序列 选 入 Variable 栏 ， 将 时 间 变 量 先入 Time Axis 
Labels 栏 ， 然 后 单 击 OK 按钮 。 
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图 22-4 左 图 为 原始 序列 ， 是 一 单调 上 升序 列 ， 显 示 上 海 市 25 年 来 人 口 增长 的 趋势 。 
右 图 实 线 为 1 阶 差分 序列 ， 总 体 呈 下 降 趋势 ， 虚 线 为 2 阶 差分 序列 ， 围 绕 0 上 下 波动 ， 呈 
“平稳 ” IK 
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22-4 ”原始 序列 及 其 1. 2 阶 差 分 序列 


数据 文件 data22-2.sav 中 变量 f 为 某 医院 连续 60 天 日 就 诊 人 数 资料 ， 
变量 date 为 日 期 。 试 进行 一 阶 差分 和 季节 性 (季节 间隔 为 周 ， 即 7 天 ) 差分 处 理 ， 并 绘制 
序列 图 进行 观察 。 

解 : 打开 数据 文件 data22-2.sav, 首先 定义 时 间 ， 虽然 原 始 数据 已 经 有 日 期 变量 , 但 是 
需要 按照 规则 定义 季节 性 变量 。 操 作 如 下 : 


Data 
Define Dates 
“Weeks, Days ( 选 定 季节 性 周期 为 周 ) 


E Week 栏 填 入 1 (从 第 1 周 开始 计算 )， 在 Day 栏 填 入 4 CE 1999 #E 5 月 19 日 为 星 
8H3, SPSS 内 定 每 周 周 日 为 第 1 天 ， 则 周 3 为 第 4 天 ， 所 以 填 入 4， 见 图 22-5)， 单 击 OK 
按钮 。 此 过 程 产 生 了 WEEK ,DAY ,DATE _3 个 内 部 日 期 变量 ， 并 定义 7 天 一 个 周期 。 











Current Dates: 
Weeks(1) days[4;7) 


图 22-5 定义 时 间 变 量 


588 | 


时 间 序 列 分 析 EEA 


定义 好 时 间 和 周期 后 ， 按 例 22-1 方法 对 变量 做 差分 处 理 ， 即 分 别 进行 1 阶 普通 差分 


和 1 阶 季节 性 差分 。 
再 按 例 22-1 方法 ， 将 原始 序列 和 差分 序列 做 成 序列 图 〈 见 图 22-6)。 


.DFFF(x, 


SDIFF 
"hið 






Value 






£ E ' MELLE ia I 
£A ua LU Ad eo Ok 
Eei A EN VEAN [INANE 
, 2 x K ` v : h V N i z š ^ =: Y ys : è ° + ga 
$ , ` EET 





DAY, period 7 


图 22-6 原始 序列 和 差分 序列 的 序列 图 


图 22-6 中 列 出 连续 60 天 某 医 院 每 日 就 诊 病 人 数 资料 ， 粗 实 线 为 原始 序列 ， 细 虚线 为 
1 阶 差分 序列 ， 粗 虚线 为 1 阶 季节 差分 (季节 参数 为 7， 即 每 周 ) 序列 。 目 测 观察 ， 原 始 
序列 周期 性 明显 ， 呈 现 以 7 天 为 一 个 周期 的 周期 性 波动 特征 ，1 阶 差分 序列 亦 呈 周期 性 波 
动 ， 而 季节 差分 序列 趋 于 平稳 。 
数据 文件 data22-3.sav 中 数据 为 某 市 60 天 SO, 日 平均 浓度 (mg/) 资 
试 对 此 资料 做 平滑 或 修 匀 处 理 。 
打开 数据 文件 data22-3.sav， 操 作 如 下 : 


“Transform 
Create Time Series 
soz] 


单 击 Function 栏 的 下 拉 列 表 ， 选 择 Center Moving Average， 填 入 窗 宽 (Span) X 3, 
即 得 到 3 日 中 心 移动 平均 序列 ， 填 入 窗 宽 为 10， 则 得 到 10 日 中 心 移动 平均 序列 ， 如 果 选 
ff Smoothing， 则 得 到 T4253H 法 修 匀 的 序列 。 

按照 例 22-1 方法 ， 做 出 序列 线 图 ， 如 图 22-7 所 示 。 

图 22-7 中 黑 实 线 为 原始 序列 ， 黑 虚线 为 3 日 中 心 移动 平均 序列 ， 淡 实 线 为 10 日 移动 
平均 序列 ， 淡 虚线 为 平滑 处 理 后 的 序列 。 由 本 图 可 见 ， 平 滑 和 趋势 是 一 对 矛盾 体 ， 当 窗 
宽 较 小 时 ， 可 以 较 好 地 还 原 原 始 序 列 的 趋势 ， 但 平滑 效果 不 好 (如 图 中 黑 虚线 )， 当 窗 宽 
较 大 时 ， 平滑 效果 较 好 ， 但 在 一 定 程度 上 抹杀 了 原始 序列 的 趋势 (如 图 中 淡 实 线 )。 而 
T4253H 平滑 法 可 以 得 到 兼顾 趋势 和 平滑 两 方面 要 素 的 曲线 , 为 时 间 序 列 分 析 中 常用 的 平 
滑 方 法 。 


料 


` 
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— 

-----MA(SO23,3) 

— —M4(S02,10,10) 
---T4253H(SO2) 


Value 








DAY, period 7 


图 22-7 原始 序列 及 用 不 同 平滑 方法 处 理 后 的 序列 线 图 


22.2.8 ”填补 缺失 数据 


填补 缺失 数据 为 时 间 序 列 资料 分 析 的 重要 环节 。 时 间 序 列 分 析 的 参数 模型 ， 如 ARMA 
模型 等 ， 都 不 允许 有 缺失 值 存在 ， 在 有 缺失 值 情况 下 ， 系 统 会 用 默认 的 方式 填补 后 分 析 。 
SPSS 提供 了 缺失 值 填补 模块 〈 参 见 第 13 章 )， 数 据 分 析 者 可 以 选择 填补 缺失 数据 的 方式 。 

data22-4.sav 为 某 市 连续 60 天 日 平均 气温 ，Z 为 原始 序列 ，Zm 为 模拟 
有 3 个 缺失 数据 的 序列 ， 试 对 序列 Zm 用 不 同方 法 填补 并 比较 结果 。 

图 22-8 左 侧 列表 为 原始 变量 列表 ， 右 上 的 New Variables 为 填补 缺失 值 后 的 新 序列 变 
量 名 及 其 标签 〈 解 释 )， 右 中 的 Name 提供 修改 新 序列 名 称 的 功能 ， 右 下 的 Method 为 下 拉 
列表 ， 提 供 填 补缺 失 值 的 具体 方法 ， 下 面 的 Span of nearby points 为 填写 相应 参数 处 。 








图 22-8 ”填补 缺失 值 对 话 杠 


填补 缺失 值 的 操作 过 程 如 下 : 
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"Replace Missing Values 000 eB UAM A E EAE 
“Method [V] Series mean 号 选择 方法 

Dizm P| 一 选择 待 处 理 的 原始 序列 

-OK ”= 结果 在 数据 集中 产生 新 时 间 序 列 


Method 中 各 选项 的 含义 和 使 用 如 下 。 

° Series mean， 使 用 全 序列 均 数 填补 缺失 值 ; 

e Mean of nearby points， 使 用 以 缺失 值 为 中 心 的 移动 平均 数 来 填补 缺失 值 ， 需 要 在 
Span of nearby points， 处 填写 参数 ， 实 际 是 半 个 窗 宽 ; 

e Median of nearby points， 使 用 以 缺失 值 为 中 心 的 中 位 数 来 填补 缺失 值 ， 其 他 同上 ; 

* Linear interpolation， 使 用 线性 插值 法 ， 即 使 用 半 窗 宽 为 1 的 移动 平均 数 插值 填补 ; 

* Linear trend at point， 使 用 时 间 变 量 对 原始 数据 做 线性 回归 ， 然 后 根据 线性 回归 方程 
的 预测 值 填补 缺失 值 。 


结果 解释 : 


本 例 分 别 使 用 了 4 种 方法 填补 缺失 值 。 由 于 原始 序列 日 平均 气温 在 一 段 时 间 内 呈 线 性 
趋势 ， 所 以 使 用 序列 均值 填补 的 误差 比较 大 ， 而 后 3 种 方法 填补 效果 较 好 。 


223 ”指数 平滑 法 


22.3.1 指数 平滑 法 的 原理 


指数 平滑 法 的 思想 来 源 于 对 移动 平均 法 预测 方法 的 改进 。 当 用 当前 值 和 历史 值 预测 未 
来 值 时 ， 移 动 平 均 法 (Prior Moving Average) 有 两 个 难题 ， 其 一 是 给 当前 值 和 历史 值 同等 
权重 不 合理 ， 一 般 而 言 ， 未 来 值 总 是 和 邻近 时 点 的 值 关 系 更 密切 : 其 二 是 无 法 令 人 信服 地 
确定 窗 宽 ， 使 用 5 日 移动 平均 数 还 是 15 H? 难 有 定论 ， 而 且 ， 如 果 使 用 5 日 移动 平均 数 ， 
那么 5 日 之 前 的 观察 值 等 于 赋予 权重 0, 而 5 日 内 的 观察 值 均 有 相等 权重 0.2, 这 也 和 实际 
情况 相悖 。 指 数 平滑 法 的 思想 是 用 无 穷 大 为 窗 宽 ， 各 历史 值 的 权重 随时 间 的 推移 呈 指 数 衰 
减 ， 这 样 就 解决 了 移动 平均 法 的 两 个 难题 。 指 数 平滑 法 用 公式 表达 如 下 : 


Yes -j 
-(ü- 6)Y 6/2. j (22-20) 


3 0; Pn 


Kr, 0x (9x1; j20,112,*; 1=1,2,…; t». 
BERE z, 表示 观测 序列 ， 色 表示 预测 序列 〈 下 同 )， 分 母 为 正则 化 常数 ， 其 作用 是 保 
证 权重 之 和 为 1。 





Z, = 
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时 间 序 列 自身 一 般 有 随机 波动 、 长 期 〈 线 性 或 非 线性 ) 趋势 和 周期 性 〈 稳 定性 或 不 稳 
定性 ) 波动 三 方面 特征 ，SPSS 软件 提供 了 3 种 指数 平滑 模型 和 1 个 自 定 义 模块 来 处 理 相 
应 的 时 间 序 列 。 

(1) Simple 法 

本 法 为 单 参数 的 指数 平滑 模型 ， 适 用 于 无 长 期 趋势 和 周期 性 波动 的 序列 。Simple 法 预 
测 的 数学 模型 为 

2,í1,20z +(-o)2 ， 其 中 w=1-6 (22-21) 
可 以 推出 2 = 2, +Ge,, Kr. e-2u-Z. e,#K t EARE o 

Simple 法 的 平滑 参数 w 在 0—1 之 间 选 取 ， 较 大 的 @ 使 得 预测 值 对 前 一 时 点 观察 值 敏 
感 ， 较 小 的 则 使 历史 数据 权重 较 大 ， 预 测 的 序列 较为 平稳 。 

(2) Holt 法 

本 法 称 为 双 参 数 线性 指数 平滑 法 , 适用 于 有 线性 趋势 而 无 季节 性 趋势 的 时 间 序 列 .Holt 
法 的 数学 模型 为 

B, =Y: - 2) +(1-)ñ a, Bi-0,0«y«l 
4 & =az +0- +Ê) &-2z,0«ax«l (22-22) 
则 2, = 2, +mÊ,, m 为 预测 的 领先 时 间 间 隔 。 
AP, Sa 的 意义 同 Simple 法 中 的 x ， 参 数 y 称 趋势 参数 ， 用 来 修正 线性 趋势 对 预测 
结果 的 影响 ， 较 大 的 y 对 近期 趋势 敏感 ， 较 小 的 y 则 相反 。 

(3) Winters 法 

本 法 为 3 参数 模型 ， 适 用 于 有 周期 性 变化 的 时 间 序 列 数据 。Winters 法 的 数学 模型 为 

Ê, =V- 2m) + 0-7) B-0,0«y«l 


2 =az + (1-0) +Ê) Za -2u,0«oe«l 
Í,-5* .0-8,,. t>L, 0<6<1, 上 为 季节 周期 长 度 
Zt 


ram = (Š, + mB Lrm (22-23) 

Scb E, Winters 法 相当 于 在 Holt 法 的 基础 上 上乘 上 季节 校正 系数 I, ， 其 中 6 为 季节 参 
数 ， 较 大 的 6 给 当前 或 最 近 的 周期 数据 以 较 大 的 权重 。 

(4) Custom 法 

本 法 为 SPSS 提供 的 一 个 选项 ， 并 非 是 一 种 单一 的 方法 ， 而 是 提供 给 用 户 的 自 定 义 方 
法 集合 。 本 法 既 可 以 解决 以 上 3 种 方法 所 解决 的 问题 ， 又 可 以 处 理 呈 指数 趋势 或 趋势 逐渐 
衰减 的 序列 ， 还 可 以 针对 加 法 型 周期 变化 和 乘法 型 周期 变化 分 别处 理 。 

Custom 的 选项 有 两 类 ， 各 自 单独 选取 ， 分 别 为 趋势 成 分 和 季节 成 分 。 涉 及 趋势 成 分 
的 选项 有 : 

* None， 无 趋势 ， 相 当 于 Simple 模型 ; 

* Linear， 线 性 趋势 ， 相 当 于 Holt 模型 ; 

e Exponential， 指 数 趋势 模型 
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° Damped， 衰 减 趋势 模型 。 

如 果 选 Damped， 则 增加 一 个 参数 pg (0«0«10, o 取 值 越 大 ， 豪 减 越 快 。 
涉及 季节 成 分 的 选项 有 : 

° None， 无 周期 性 变化 ; 

° Additive， 加 法 模型 ， 周 期 性 变化 幅度 与 当前 序列 均值 无 关 ; 

° Mnultiplicative， 乘 法 模型 ， 周 期 性 变化 幅度 与 当前 序列 均值 有 关 。 


22.3.2 ”指数 平滑 法 的 操作 


首先 打开 数据 文件 ， 如 果 数 据 有 周期 性 变化 ， 则 需要 事先 定义 好 时 间 变 量 ， 指 定 季 节 
或 周期 长 度 。 


a 操作 提示 


Analyze 
Time Series — . 
Exponential ridi. 


此 时 弹出 对 话 框 ， 选 择 变量 和 方法 ， 并 指定 相应 参数 值 ， 也 可 以 由 程序 在 指定 范围 内 搜 
索 最 优 参数 或 参数 组 合 。 程 序 用 预测 误差 的 平方 和 来 判断 预测 效果 , 以 平方 和 最 小 者 为 最 优 。 

试用 不 同 的 指数 平滑 方法 对 data22-1.sav 中 变量 年 未 人 口 数 进行 预测 。 

图 22-4 中 的 左 图 为 变量 年 末 人 口 数 在 25 年 间 的 趋势 线 图 ， 从 此 图 可 见 ， 年 末 人 口 数 
呈 逐 年 增长 趋势 ， 开 始 增长 较 快 ,而 后 变 慢 ， 近似 线性 趋势 ， 也 可 以 说 呈 衰 减 的 线性 趋势 ， 
或 者 用 指数 趋势 描述 更 准确 。 所 以 ， 试 用 Linear，Exponential 和 Damped 三 种 方法 进行 预 
测 并 选择 最 优 预测 模型 和 参数 。 

打开 数据 文件 后 , 按照 前 述 的 操作 提示 , 打开 对 话 框 , 选 入 待 处 理 变量 X, 选择 Custom 
后 ， 再 单 击 Custom 按钮 ， 打 开 Custom 子 对 话 框 。 首 先 选 择 方法 Linear， 见 图 22-9， 然 后 
单 击 Parameters 按钮 ， 打 开 Parameters 子 对 话 框 ， 由 于 无 法 预知 取 多 大 参数 合适 ， 因 此 让 
程序 在 0—1 之 间 自 动 选取 参数 组 合 ， 见 图 22-10。 本 例 需 要 定义 a 和 7 两 个 参数 ， 指 定 程 
序 由 0 开始 搜索 ， 到 1 终止 ， 搜 索 步 长 为 0.1。 


pe 15 
unt et 


» AXIET 28 C 


1 Saien nem CI a po 





图 22-9 指数 平滑 法 之 Custom 选项 
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图 22-10 ”指数 平滑 法 之 参数 选择 


选择 完毕 后 ， 单 击 Continue 按钮 和 OK 按钮 即 可 得 到 结果 。 预 测序 列 和 预测 误差 序列 
会 在 原始 数据 后 添加 ,不 同 参数 组 合 下 的 均 方 误差 在 Output 窗口 给 出 , 并 列 出 最 优 参 数组 


A 
r1 


继续 使 用 Exponential 和 Damped 选项 进行 预测 ， 注 意 : 在 使 用 Damped 法 时 ,参数 
不 能 等 于 0 或 1， 只 能 取 二 者 之 间 。 

试用 适当 方法 对 data22-2.sav 中 的 医院 日 接 诊 数 进行 预测 。 

由 例 22-2 可 知 ， 本 例 数据 以 7 天 为 周期 呈 周 期 性 变化 ， 所 以 需要 按 例 22-2 方法 定义 
时 间 变量 并 指明 周期 长 度 。 然 后 使 用 Winters 法 进行 指数 平滑 ， 操 作 同 例 22-5。 注 意 ， 需 
要 指定 变量 WEEK_ 为 Seasonal Factors. 


22.3.3 ”指数 平滑 法 的 结果 和 人 解释 


利用 例 22-5 的 方法 ， 在 Output 窗口 得 到 一 系列 结果 ， 结 果 22-1 摘录 了 主要 结果 ， 本 
例 分 别 使 用 了 Linear. Damped 和 Exponential 三 种 方法 ， 左 侧 结果 为 方法 摘要 ， 右 侧 结 
果 给 出 了 由 左 侧 方法 得 到 的 最 优 参数 组 合 及 误差 平方 和 。 由 误差 平方 和 〈Sums of 
Squared Errors， 简 称 SSE， 下 同 ) 最 小 原则 或 误差 均 方 最 小 原则 〈 注 : 由 于 各 模型 方法 
自由 度 都 一 样 ， 以 上 两 种 提 法 等 价 ， 但 后 者 更 具 一 般 性 ) 可 见 ，Exponential 法 的 SSE 最 
小 ， 约 为 794.4，Damped 法 的 SSE 较 大 ， 而 Linear 法 的 SSE 最 大 ， 约 为 999.8。 其 中 ， 
除 Damped 法 需要 3 个 参数 外 , 其 他 两 种 方法 都 需要 2 个 参数 ,本 例 结果 显然 以 Exponential 
法 为 最 佳 。 

结果 22-2 为 摘录 例 22-6 的 结果 , 上 层 结果 为 使 用 Winters 法 粗 分 析 得 到 的 3 个 参数 最 
优 组 合 和 SSE， 下 层 结果 在 粗 分 析 的 基础 上 ， 缩 小 参数 搜索 范围 和 步 长 得 到 的 最 终 分 析 结 
果 。 一 般 在 分 析 时 我 们 可 以 先 在 较 大 的 范围 初步 搜索 参数 ， 得 到 初步 结果 后 ， 再 在 较 小 的 
范围 精细 搜索 参数 。 如 本 例 ， 粗 分 析 结果 为 w= 0.2,y= 0,6 =0.9,SSE —264378.9 ; 精细 分 
析 的 结果 为 w= 0.21y= 0,5 =0.88, SSE = 264181.1 ， 从 误差 均 方 来 看 ， 精 细 分 析 的 结果 更 
理想 。 注 意 到 本 例 的 趋势 参数 y=0 ， 显 示 原 始 序列 只 有 周期 性 波动 ， 而 无 线性 趋势 变化 。 
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Smoothing Parameters 


Sums of 
Gamma Squared 
— -| Alpha (Level Trend Errors df error 
[ 90000 | 50000 [999.83953 | — 25 | 


a here are the parameters with the smallest Sums of 
Applying the model specifications from MOD_1 Squared Errors. These parameters are used to forecast. 


Model Description 


Model Name MOD 1 
Series 1 年 末 人 口 数 ( 万 人 ) 






Holts Model Trend Linear 
Seasonality None 





Model Description Smoothing Parameters 


Sums of 
Gamma Phi i (Trend Squared 
E Alpha (Level Trend S df error 


Damped | 80000 | 70000 | 90000 | 978.22800 | — 25 | 


Seasonality None -— here are the parameters with the smallest Sums of f Squared Errors. 
Applying the model specifications from MOD 2 These parameters are used to forecast. 





MOD 2 
年 末 人 口 数 〈 万 人 ) 





Smoothing Parameters 


Sums of 
mM on F 
Series | Alpha (Level Trend Errors df error 
[X — "| 70000 | 100000 [79441921 | ^ 25 | 


Shown here are the parameters with the smallest Sums of 
Applying the model specifications from MOD 3 Squared Errors. These parameters are used to forecast. 


结果 22-1 例 22-5 中 3 种 方法 预测 的 结果 : 最 优 参数 组 合 和 误差 平方 和 


Model Description 
Model Name MOD 3 
Series 1 年 末 人 口 数 (万 人 ) 
Model Trend Exponential 
Seasonality | None 





Model Description 


Model Name MOD_10 
Series 1 f 

Winters's Multiplicative — Trend Linear 
Model Seasonality Multiplicative 
Length of Seasonal Period 


Smoothing Parameters 


eee te Sr € PM 
Aipha (Level [Trend Season) X dfe 


| 20000 [ 09000 | 90000 | 2645783 | 


— here are the parameters with the smallest Sums of — Errors. 
Applying the model specifications from MOD_10 These parameters are used to forecast. 





Model Description 
Smoothing Parameters 


Sums of 
Gamma Delta Squared 
T Alpha (Leve! Trend Season Errors df error 







Winters's Multiplicative Trend 


Model Seasonality Multiplicative 





Length of Seasonal Period | 21000 |  .00000 |  .88000 | 264181.1 | 52] 
-— here are the parameters with the smallest Sums of Squared Errors. 
Applying the model specifications from MOD 13 These parameters are used to forecast. 


结果 22-20 4)22-6 分 析 结 果 : Winters 法 的 3 个 参数 和 SSE 
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22.4.4 概述 


在 做 线性 回归 分 析 时 ， 有 一 个 前 提 条 件 就 是 要 求 模型 残 差 相互 独立 。 一 些 按时 间 顺 序 
搜集 的 资料 ， 往 往 存在 自 相关 性 ， 表 现 为 模型 的 残 差 间 存在 自 相关 现象 。 这 类 资料 可 以 使 
用 自问 归 模 型 (Autoregression Model) 进行 分 析 。 

本 过 程 相当 于 在 普通 回归 方程 的 右边 添加 1 阶 自 回归 算 子 , 和 下 节 中 的 ARIMA(1,0,0) 


是 等 价 的 。 本 模型 的 数学 表达 如 下 : 
Y, = AY, + X, B+, (22-24) 
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其 中 ， 内 为 自 回归 系数 ，X, 为 解释 变量 序列 或 自 变量 序列 〈 可 以 是 1 个 变量 ， 也 可 
以 是 多 个 )， B 为 回归 系数 或 回归 系数 向 量 ， 6L 为 白 噪 声 序列 〈 人 参见 本 章 22.1.2 节 中 有 关 
定义 )。 

实际 上 ， 单 纯 的 自 回 归 模 型 并 不 需要 解释 变量 序列 ， 即 形 如 总 = Y, + 8, 的 模型 就 是 
自 回 归 模型 的 基本 形式 。 但 是 ，SPSS 自 回归 过 程 要 求 必须 输入 自 变量 ， 否 则 不 能 运行 。 
如 果 需 要 求 取 不 带 自 变量 序列 的 自 回归 模型 , 可 以 用 Create Time Series 模块 创建 一 步 滞后 
Hy, BUY. 序列， 然后 把 -1 序列 当成 自 变量 即 可 。 


22.4. ” 自 回 归 过 程 介绍 


按照 时 间 顺 序 整理 好 数据 (这 点 很 重要 ， 否 则 可 能 出 现 完全 错误 的 结果 )， 或 者 定义 
SPSS 内 部 时 间 变 量 ， 然 后 按 顺 序 单 击 Analyze— Time Series 一 Autoregression， 打 开 
Autoregression 对 话 框 ， 见 图 22-11。 
图 22-11 右 侧 Dependent 栏 中选 入 因 变 量 (必须 有 一 个 因 变 量 )，Independent 栏 中 选 入 
自 变量 或 解释 变量 ( 至少 需要 1 个 自 变量 )。Method 栏 提供 了 3 种 参数 估计 方法 : 
* Exact maximum-likelihood， 精 确 极 大 似 然 法 (本 法 允许 有 缺失 数据 ); 
e Cochrane-Orcutt， 基 于 普通 最 小 二 乘法 ， 由 Cochrane-Orcutt 于 1949 年 提出 ， 是 针 
对 回归 残 差 自 相 关 现 象 的 处 理 算法 。 
e Prais-Winsten, Hi Prais-Winsten 于 1953 年 提出 ， 对 Cochrane-Orcutt 算法 提出 了 改 
进 。 


£p 注意 :无 论 Cochrane-Orcutt 法 还 是 Prais-Winsten 法 都 不 能 处 理 缺 失 数 据 ， 

”这 两 种 方法 给 出 的 结果 和 回归 过 程 给 出 的 结果 相似 ， 除 参数 估计 外 ， 有 RO. 
方差 分 析 、Dubin-Waterson 统计 量 等 结果 ; 而 精确 极 大 似 然 估计 则 给 出 参数 
的 相关 和 佐 阵 和 协 方差 矩阵 估计 等 附加 结果 。 








图 22-11 自 回归 过 程 主 对 话 杠 
选 定 估计 方法 后 ， 依 次 打开 Save 和 Options 子 对 话 框 ， 勾 选 有 关 选 项 ， 见 图 22-12. 
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Initial value of autoregressive parameter [Bho} [o 
Convergence Criteria 

Maximum iterations: [o 
Sum of squares change: [oo ` | 
Display nd we, Pu he C Rest 
(© |nitial and final parameters with iteration summaty 

C initial and final parameters with iteration details 

C Final parameters only 


, Cereal | ml 
图 22-12” 自 回归 过 程 的 两 个 附加 对 话 框 


Save 子 对 话 框 中 各 选项 含义 如 下 。 

* Create Variables， 创 建新 变量 〈 预 测 值 或 拟 合 值 、 残 差 等 ) 的 方式 。 
> Addto file， 添 加 到 数据 文件 中 ; 
> Replace existing， 用 新 建 结果 替代 原来 结果 ; 
> Do not create， 不 创建 新 变量 。 

° %Confidence intervals， 指 定 置信 区 间 的 置信 度 ， 通 常用 95%。 

° Predict Cases， 指 定 预 测 记录 长 度 ， 如 果 前 面 选 择 不 创建 新 变量 ， 则 不 选择 此 项 。 
> Predict from estimation period through last case， 对 所 有 记录 都 预测 ; 
> Predict through: Observation， 填 入 预测 的 记录 数 。 

Options 子 对 话 框 中 各 选项 含义 如 下 。 

° 上 半 部 分 为 指定 初 值 和 迭代 次 数 及 收敛 判断 标准 ， 一 般 使 用 默认 即 可 。 

° 下 半 部 分 Display 栏 规定 输出 结果 ， 第 1 选项 要 求 输出 初始 结果 和 最 终结 果 摘 要 ， 
第 2 选项 要 求 输出 全 部 迭代 过 程 的 详细 结果 , 第 3 选项 要 求 仅 输出 最 终 参 数 估 计 结 
RR. 


22.4.3 分析 实 例 


严 丽 萍 等 (2005 年 ) 报告 了 某 医院 1981-2003 年 恶性 肿瘤 住院 人 数 资 
料 ， 数 据 见 文件 data22-5.sav,， 其 中 为 住院 人 数 ， 数 据 已 按时 间 顺 序 排 列 。 初 步 观察 ， 恶 
性 肿瘤 住院 人 数 随 时 间 有 线性 增长 趋势 ， 试 做 回归 分 析 。 

释疑 : 首先 想到 的 是 建立 住院 人 数 对 时 间 的 回归 方程 ， 一 般 也 都 是 这 么 开始 分 析 的 。 
不 妨 先 做 普通 回归 分 析 ， 看 看 结果 如 何 。 因 为 年 份 等 间隔 增加 ， 为 了 计算 结果 简便 ， 将 原 
始 数据 的 时 间 变 量 由 实际 年 改 成 顺序 号 1 一 23。 

首先 做 普通 回归 分 析 ， 以 y 为 因 变量 ， 以 1 为 自 变量 ， 要 求 计算 Durbin-Watson 统计 
量 , 要 求 将 预测 值 添加 到 原始 数据 中 。 具体 操作 为 : 依次 单 击 Analyse 一 Regression 一 Linear， 
打开 线性 回归 分 析 主 对 话 框 ， 选 择 y 为 因 变量 ，t 为 自 变量 ， 然 后 单 击 Statistics 按钮 ， 在 
Residual 栏 中 勾 选 Durbin-Watson; 单 击 Continue 按钮 返回 主 对 话 框 ， 再 单 击 Save 按钮 ， 

在 Predicted Values 栏 中 色 选 Unstandardized; 单 击 Continue 按钮 返回 主 对 话 框 ， 最 后 单 击 
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OK 按钮 〈 请 参考 本 书 有 关 章 节 )。 


Model Summary? 


Adjusted Std. Error of 
Kamm ERE quare Gara quare | the Estimate Watson 


[ 96696 | 









— Predictors: — t 
b. Dependent Variable: y 


Coefficients" 


Unstandardized Standardized 
i ED CEN 


| B  [std.Eror | Error | Bet _ | 


(Constant) 132.411 41.677 3.177 308 
50.654 3.040 16.665 .000 


a. Dependent Variable: y 









Unstandardized 
~=- Predicted Value 





1234567891011121314151617 181920212223 
t . 


结果 22-3 9$ 22-7 数据 普通 回归 分 析 结 果 摘要 


结果 22.3 为 摘 取 的 部 分 线性 回归 结果 ， 第 1 个 表 列 出 模型 决定 系数 RR 和 
Durbin-Waterson 统计 量 等 结果 ; 第 2 个 表 给 出 模型 参数 估计 结果 ; 下 边 的 图 为 原始 序列 和 
预测 序列 随时 间 变 化 的 趋势 线 图 。 此 模型 的 决定 系数 为 0.930， 相 当 大 ， 模 型 拟 合 得 似乎 
不 错 ， 但 是 Durbin-Watson 统计 量 为 0.88， 这 个 数值 提示 残 差 有 很 强 的 自 相 关 性 〈 关 于 此 
统计 量 的 意义 请 参见 回归 过 程 等 相关 章节 )。 进 一 步 看 实际 值 和 预测 值 的 线 图 ， 发 现 预 测 
误差 在 一 段 时 间 连 续 为 正 ， 而 另 一 段 时 间 则 连续 为 负 ， 特 别 在 序列 末端 更 是 如 此 ， 这 种 误 
差 结构 是 不 理想 的 ， 所 以 模型 有 改进 的 必要 。 

下 面 使 用 自 回归 过 程 进 行 分 析 , 为 了 便于 和 普通 回归 结果 比较 , 首先 使 用 Prais-Winsten 
法 对 数据 进行 分 析 。 具 体操 作为 : 依次 单 击 Analyse 一 Time Series 一 Autoregression， 在 自 
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回归 主 对 话 框 中 选 入 y 为 因 变量 ，! 为 自 变 量 ， 在 Method 栏 中 多 选 Prais-Winsten， 然 后 单 
ii OK 按钮 。 分 析 结 果 见 结果 22-4。 


Model Fit Summory 


=== O ale 
q R Square _| the Estimate Watson 
[— wl C ST S] — ss] — 1⁄4 


The Prals-Winsten estimation method is used. The Prais-Winsten estimation method is used. 


ANOVA Regression 


Coefficients 
[eme a esas | De e | | 
quqres df Mean Square Coefficients Coefficients 
feo Duaci mi ose] [co mme] sse| | zel se] 


The Prals-Winsten estimation method is used. The Prais-Winsten estimation method is used. 


























y 
Fit for y from AREG, 
OD 25 


1234567891011121314151617181920212223 
t 


结果 22-4 422-7 数据 自 回归 分 析 结 果 摘 要 〈Prais-Winsten 法 ) 


结果 解释 : 


Autocorrelation Coefficient， 自 相关 系数 估计 结果 。 

> Rho(AR1)， 一 阶 自 相 关系 数 〈 实 际 上 就 是 自 回 妇 系 数 ) 估计 值 ; 

> Std. Error， 自 相关 系数 的 标准 误 。 

Model Fit Summary， 模 型 拟 合 指标 摘要 。 注 意 到 Durbin-Watson 统计 量 为 1.426， 较 
线性 回归 模型 的 0.88 更 接近 2， 提 示 残 差 自 相关 问题 得 到 解决 。 

ANOVA， 方 差分 析 表 。 

è Regression Coefficients， 回 归 系 数 参数 估计 结果 。 
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最 后 的 线 图 是 根据 自 回 妇 模型 产生 的 预测 值 和 原始 序列 对 时 间 做 图 ,虚线 为 拟 合 值 或 
预测 值 , 实 线 为 原始 序列 , 可 见 此 图 预测 值 和 实际 值 吻合 程度 较 普通 回归 的 结果 更 为 理想 ， 
特别 是 改善 了 一 段 时 间 预 测 残 差 恒 正 或 恒 负 的 不 良 现 象 。 
本 例 最 终 得 到 的 模型 方程 为 
Y, =132.196 + 51.507T, + 0.475Y,_, 
本 例 数 据 也 可 以 使 用 精确 极 大 似 然 估计 ， 结 果 22-5 为 精确 极 大 似 然 估计 的 主要 结果 。 


Residual Diognostics 
Number of Residuals 
Number of Parameters 
Residual df 


Adjusted Residual Sum of 
Squares 
Residual Sum of Squares 196353.4 


Residua! Variance 7237.244 Parameter Estimates 


Model Std. Error 85.072 Estimates [siden | t 


Log-Ukelihood -133.495 Rho (ART L 647 EE 
Regression Coefficients t 51, o6 5. 100 N " 
Constant 132.474 72.151 om 


Akaike's information 272.991 
Melard's algorithm was used for estimation. 







Criterion (AIC) 
Schwar's Bayesian 
Criterion (BIC) 276.397 





结果 22-5 4522-7 数据 自 回归 分 析 结 果 摘 要 (Exact maximum-likelihood 12; ) 
结果 解释 : 


* Residual Diagnostics 给 出 残 差 诊断 统计 量 列表 ， 从 上 至 下 依次 为 : 残 差 数目 、 参 数 
个 数 、 残 差 自 由 度 、 调 整 残 差 平方 和 、 残 差 平方 和 、 残 差 方差 、 模 型 标准 误 、 对 数 
似 然 函数 、AIC、BIC。 

* Parameter Estimates 给 出 回归 系数 估计 值 、 标 准 误 估计 、x 值 和 渐进 P 值 , 第 1 行为 
自 回 归 系 数 ， 第 2 行为 回归 系数 ， 第 3 行为 常数 项 。 此 法 估计 结果 与 Prais-Winsten 
法 估计 的 结果 略 有 不 同 。 


225 ARIMA 模型 


22.5.1 概述 


ARIMA 过 程 提供 建立 Box-Jenkins 的 时 间 序 列 模型 ， 本 过 程 可 以 对 带 ARMA 误差 或 
ARIMA 误差 的 回归 方程 建 模 。 本 过 程 也 可 用 于 建立 乘积 型 季节 性 模型 。 

ARIMA 过 程 的 操作 非常 简单 ， 和 上 节 的 自 回归 过 程 类 似 ， 主 对 话 框 也 基本 相同 ， 只 
是 多 了 几 个 参数 设置 ， 见 图 22-13. Dependent 栏 需 填 入 响应 序列 或 称 因 变量 ，Transform 
栏 问 是 否 需 要 做 对 数 变 换 ， 如 果 需 要 (例如 ， 将 指数 趋势 化 为 线性 趋势 ， 处 理 方差 不 齐 的 
数据 等 )， 可 以 做 自然 对 数 变换 。 当 需要 更 复杂 的 数据 变换 时 ， 可 以 用 Transform 功能 预先 
处 理 后 再 用 本 过 程 建 模 。Independent(s) 栏 填 入 解释 序列 或 自 变量 ， 可 以 是 一 个 变量 也 可 以 
是 多 个 变量 , 此 处 如 果 不 填 , 则 拟 合 1 个 纯粹 的 ARIMA 模型 ; 如 果 填 写 , 则 拟 合 带 ARMA 
误差 或 ARIMA 误差 的 回归 模型 。 


600 | 


J lB] Pe) 23r 


< 注意 : Independent(s) 栏 可 填 可 不 填 ， 但 是 对 于 Autoregression 过 程 ， 此 
” 栏 不 填 则 无 法 处 理 。 

Model 栏 给 分 析 者 填 入 模型 参数 细节 ，P 为 自 回归 的 阶 ，d 为 差分 的 阶 ，g 为 移动 平均 
(也 称 “ 滑 动 和 ”) 的 阶 。 在 Seasonal F, sp, sd, sq 分 别 填 写 季节 性 自 回 归 、 差 分 和 移动 平 
均 的 阶 ， 如 果 填 写 此 处 ( 填 入 大 于 0 的 整数 )， 则 得 到 乘积 型 季节 性 ARIMA 模型 ， 对 季节 
性 进行 建 模 的 前 提 是 数据 中 时 间 周 期 已 经 定义 。Model 栏 最 后 的 选项 问 常数 项 是 否 需 要 进 
入 模型 ， 如 果 有 理由 认为 模型 常数 项 为 零 ， 则 不 选 ， 一 般 需 勾 选 此 项 。 











Kd] 22-13 ARIMA 过 程 的 主 对 话 框 


在 主 对 话 框 下 面 ， 单 击 Save 或 Options 按钮 可 以 得 到 相应 的 附加 对 话 框 ， 这 里 的 附加 
对 话 框 内 容 和 图 22-12 中 内 容 基 本 相同 ， 故 不 再 袭 述 ， 读 者 可 参阅 图 22-12 的 说 明 。 在 
Options 子 对 话 框 中 ， 此 处 较 图 22-12 的 右 图 多 出 一 项 内 容 一 一 Forecasting Method， 即 预测 
方法 选择 , 选项 分 别 为 Unconditional Least Squares( 非 条 件 最 小 二 乘法 ) 和 Conditional Least 
Squares (条 件 最 小 二 乘法 )。 如 果 选 择 条 件 最 小 二 乘法 ， 则 需要 对 估计 过 程 的 初 值 进行 设 
定 。 如 果 读 者 不 熟悉 这 些 估计 细节 ， 使 用 系统 默认 的 非 条 件 最 小 二 乘法 即 可 。 

虽然 ARIMA 模块 操作 并 不 复杂 , 但 是 建立 一 个 好 的 或 较 优 的 ARIMA 模型 却 非 易 事 。 
一 方面 ， ARMA 模型 或 ARIMA 模型 的 形式 不 是 唯一 的 (数学 上 可 以 证 明 ), 例如 , 一 个 p 
阶 自 回 归 模 型 理论 上 可 以 用 无 穷 阶 的 移动 平均 模型 来 精确 刻画 。 另 一 方面 ， 目 前 尚 无 任何 
程序 帮助 你 自动 选择 p, d, q 的 阶 ， 这 些 需 要 研究 者 去 自行 判断 。 所 以 ，ARIMA 建 模 实际 
上 包括 3 个 步骤 ， 即 模型 识别 阶段 、 参 数 估计 和 检验 阶段 以 及 预测 应 用 阶段 ， 其 中 ， 前 两 
个 阶段 可 能 需要 反复 进行 。 


22.5.2 ARIMA 模型 识别 、 建 模 和 模型 评价 详解 


ARIMA 模型 的 识别 就 是 判断 p, d, q 包括 sp, sd, sq 的 阶 , 主要 依靠 自 相关 函 数 (ACF) 
Aih HIKA (PACF) 图 来 初步 判断 和 估计 。ACF 和 PACF 的 识别 原则 本 章 22.1 节 已 
经 介绍 。 一 个 识别 良好 的 模型 应 该 有 两 个 要 素 : 一 是 模型 的 残 差 为 白 噪声 序列 ， 需 要 通过 
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残 差 的 白 噪 声 检 验 ; 二 是 在 模型 参数 的 简约 性 和 拟 合 优 度 指标 的 优 展 性 (如 对 数 似 然 函数 
值 较 大 ，AIC、BIC 较 小 ) 方面 取得 平衡 。 还 有 一 点 需要 注意 ， 模型 的 形式 应 该 易于 理解 ， 
比如 说 ， 一 些 长 期 趋势 可 以 表达 为 时 间 的 函数 ， 也 可 以 用 1 一 2 阶 差分 处 理 ; 同样 地 ， 有 些 
季节 性 波动 既 可 以 用 正弦 或 余弦 函数 进行 拟 合 ,也 可 以 使 用 季节 性 差分 处 理 。 如 果 建 立 的 是 
回归 模型 ， 欲 分 析 各 种 因素 对 响应 序列 的 影响 ， 过 多 使 用 差分 虽然 也 能 很 好 地 拟 合 模型 ,但 
模型 参数 的 实际 意义 则 不 明确 。 所 以 ， 如 果 能 通过 某 种 变换 或 函数 拟 合 使 得 模型 达到 平稳 ， 
最 好 不 用 差分 。 当然 如 果 仅仅 用 于 预测 , 使 用 差分 使 序列 平稳 化 比 使 用 函数 拟 合 要 方便 得 多 。 

试 对 模拟 数据 (data22-6.xls 或 data22-6.sav) 的 6 个 序列 分 别 做 ARIMA 
模型 的 初步 识别 。 

数据 文件 data22-6.sav 包括 z1—z6 共 6 个 模拟 的 随机 序列 ， 为 时 间 顺 序 变量 。 首 先 
进行 模型 识别 ， 对 此 6 个 序列 分 别 做 ACF 和 PACF 图 。 
* 操作 提示 

Graphs 

Time Series 

Autocorrelation 

打开 时 间 序 列 图 形 过 程 的 主 对 话 框 ， 将 待 做 图 的 变量 选 入 《〈 见 图 22-14), fE Display 
栏 的 Autocorrelations 和 Partial autocorrelations E }T 4%, 此 项 要 求 输出 ACF 和 PACF 图 。 
Transform 栏 为 数据 变换 或 差分 选项 ， 可 根据 需要 勾 选 。 最 后 单 击 OK 按钮 。 





图 22-14 ”时 间 序 列 图 形 过 程 的 主 对话 框 


ACF 和 PACF 图 为 相关 系数 函数 图 , 横 坐 标 为 时 间 间 隔 或 称 时 滞 , 纵 坐标 为 相关 系数 ， 
取 值 在 -1 一 1 之 间 ， 图 中 的 柱子 标示 在 一 定时 滞 下 自 相关 系数 的 值 ， 图 中 两 条 横 线 为 相关 
系数 假设 检验 参考 标准 线 ， 在 两 线 之 间 的 相关 系数 无 统计 学 意义 ， 超 出 两 线 间 的 柱子 所 代 
表 的 相关 系数 有 统计 学 意义 。 

图 22-15: 序列 zl 的 ACF EHER, PACF 一 步 截 尾 ， 可 判断 为 平稳 序列 ， 识 别 为 
ARI 模型 ， 即 p=1,d=0,q=0 的 ARIMA(1,0,0) 模 型 。 

图 22-16: 序列 z2 的 ACF 呈 拖 尾 衰减 ，PACF 两 步 截 尾 ， 可 判断 为 平稳 序列 ， 识 别 为 
AR2 模型 ， 即 p=2, d-0, q=0 的 ARIMA(2,0,0) 模 型 。 

图 22-17: 序列 z3 的 ACF 呈 拖 尾 衰 减缓 慢 ， 为 非 平稳 序列 特点 ，PACF 一 步 截 尾 ， 尚 
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无 法 识别 ， 需 要 将 序列 平稳 化 处 理 后 再 进行 判断 。 


zi zi 


Partial ACF 

















£ £ X WERE 3-3. 9 V. 3: b 
1232452087 8 9 10 1 12 13 14 15 16 4 5 6 7 B 9 10 H :2 13 14 15 16 


Lag Number Lag Number 


图 22-15  data22-6.sav 中 序列 zl 的 ACF 和 PACF 图 ( 左 为 ACF K, AA PACF K, FE) 





Tri 


Partial ACF 











t 2 3 4 5 6 7 B 9 10 TH 12 13 44 15 16 5 6 7 B 9 10 11 12 13 M 15 16 


Lag Number Lag Number 


图 22-16  data22-6.sav 中 序列 z2 的 ACF 和 PACF 


z3 23 




















Confidence Limit 
Lower Confidence. 
Limit 
x ul 
Ti | - 
s 
pisei Sa A $ 
Hi 
a 
*qpoE YK * 4 4 
12 3 4 587 8 8 10 M" 12 13 14 15 56 4 2 34 507 8 9 10 ff 12 13 14 15 16 
Lag Number Lag Number 


22-17  data22-6.sav 中 序列 z3 的 ACF 和 PACF 图 


图 22-18: 序列 z4 的 ACF 一步 截 尾 ，PACEF 呈 拖 尾 衰减 ， 可 判断 为 平稳 序列 ， 识 别 为 
MAI 模型 ， 即 p=0, d=0, q=1 的 ARIMA(0,0,1) 模 型 。 
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图 22-19: 序列 z5 的 ACF 两 步 截 尾 ，PACEF 呈 拖 尾 衰减 ， 可 判断 为 平稳 序列 ， 识 别 为 
MA2 模型 ， 即 p=0, d=0, q=2 的 ARIMA(0,0,2) 模 型 。 

图 22-20: 序列 z6 的 ACF 和 PACF 均 呈 拖 尾 衰减 ， 可 判断 为 平稳 序列 ， 识 别 为 混合 模 
型 ， 即 p=? ,d=0,q=? 的 ARIMA(? ,0,? ) 模 型 。p 和 q 的 阶 数 需要 摸索 判断 。 


z4 z4 


1 E] Coefficient D E] Coefeen 
2 Confidence Limit "| Confidence Limit 
Lower Confidence. Lower Confidence. 
Limit 
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图 22-18  data22-6.sav 中 序列 z4 的 ACF 和 PACF 
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22-19  data22-6.sav 中 序列 z5 的 ACF 和 PACF 图 
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图 22-20  data22-6.sav 中 序列 z6 的 ACF 和 PACF 图 
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因为 序列 z3 为 非 平稳 序列 ， 需 要 对 其 平稳 化 处 理 后 再 进行 识别 ， 最 常用 的 方法 是 做 
差分 处 理 ， 即 在 图 22-14 的 Difference 栏 填 入 1， 做 一 阶 差 分 后 再 进行 识别 。 由 结果 ( 见 图 
22-21) 可 见 ， 差 分 后 序列 的 ACF 呈 两 步 截 尾 ， 而 PACF 呈 一 步 截 尾 ， 初 步 识别 为 AR1 模 
型 (ACF 当成 拖 尾 处 理 , 也 就 是 当 ACF 和 PACF 都 貌似 截 尾 时 , 把 尾巴 长 的 当 拖 尾 处 理 )。 
由 于 原始 序列 已 经 做 了 1 阶 差分 处 理 ， 所 以 ， 原 始 序 列 z3 识别 为 ARIMA(1,1,0)。 








z3 z3 
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图 22-21 23 经 过 1 阶 差 分 后 的 ACF 和 PACF 图 


模型 初步 识别 结束 后 ， 下 一 步 进 行 参 数 估计 和 模型 诊断 ， 对 于 特征 明显 的 序列 ， 一 次 
识别 就 可 确定 模型 的 阶 数 ， 并 通过 模型 诊断 ， 而 混合 模型 则 需要 反复 尝试 。 

* 利用 例 22-8 的 识别 结果 ， 对 序列 23 进行 参数 估计 和 模型 诊断 。 

序列 z3 已 经 明确 识别 为 ARIMA(1,1,0), 参 数 估计 只 需要 调用 ARIMA 过 程 ,在 ARIMA 
过 程 的 主 对 话 框 中 (参见 图 22-13) 将 z3 选 入 应 变量 框 ， 在 参数 p，d，g 栏 中 依次 填 入 1, 
1, 0 后， 单 击 OK 按钮 即 可 。 主 要 输出 内 容 见 结果 22-6。 


Number of Parameters 
Residual df 

Adjusted Residual Sum of 
Squares 


Residual Variance 
Model Std. Error 
Log-Likelihood 
Akaike's Information 
Applying the model specifications from MOD 33 Criterion (AIC) 
a. Since there is no seasonal component in the Schwarz's Bayesian 
model, the seasonality of the data will be ignored. | Criterion (BIC) 








-343 042] 800 000 
.242 .034 7.223 .000 


Melard's algorithm was used for estimation. 





结果 22-6 序列 z3 (来 自 data22-6.sav 数据 ) 的 ARIMA 模型 参数 估计 
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在 结果 22-6 中 ， 左 上 表 为 模型 的 描述 信息 ， 包 括 : 模型 名 字 为 系统 按 顺序 自动 生成 ， 
这 里 是 MOD_33， 以 下 指出 响应 序列 为 z3， 未 做 数据 变换 ， 模 型 包含 常数 项 ， 自 回归 阶 数 
为 1， 非 季节 性 差分 阶 数 为 1， 无 移动 平均 算 子 (相当 于 移动 平均 阶 数 为 0)。 右 上 表 为 模 
型 残 差 统计 量 和 拟 合 优 度 统计 量 列表 ， 下 表 为 参数 估计 结果 和 参数 的 假设 检验 统计 量 及 P 
值 ， 各 项 目的 含义 参见 例 22-7 有 关内 容 。 以 上 为 参数 估计 结果 ,但 分 析 并 没有 结束 ， 模 型 
是 否 拟 合 完全 还 需要 对 残 差 序列 进行 自 相关 检验 ， 亦 称 残 差 的 白 噪声 检验 。ARIMA 过 程 
没有 提供 残 差 自 相关 检验 ， 解 决 办 法 是 ， 在 主 对 话 框 中 单 击 Save 按钮 ， 打 开 Save 子 对 话 
XE, Æ Create Variables 栏目 下 选择 Add to File， 然 后 单 击 Continue 按钮 。 这 样 就 为 原 数据 
集中 添加 了 预测 序列 和 残 差 序列 (ERR_x) 等 内 容 , 然后 使 用 例 22-8 的 方法 对 残 差 序 列 进 
行 分 析 。 

残 差 自 相关 检验 的 结果 见 结 果 22-7 左 侧 表格 , 表 中 第 1 列 是 时 滞 ,， 第 2 列 为 自 相 关系 
数 ， 第 3 列 为 自 相关 系数 的 标准 误 ， 后 3 列 分 别 为 检验 统计 量 、 自 由 度 和 PP 值 。 如 果 在 任 
何 时 滞 上 出 现 小 的 P 值 ( 比 如 说 小 于 0.05)， 则 认为 残 差 存 在 自 相关 性 ， 模 型 拟 合 不 足 ， 
需要 改进 。 如 本 例 , P 值 都 远大 于 0.05， 可 以 认为 残 差 为 白 噪声 序列 ,模型 诊断 得 以 通过 。 
右 侧 为 ACF 图 , 观察 ACF 图 , 可 以 很 直观 地 看 到 各 时 滞 上 的 自 相关 系数 均 无 统计 学 意义 。 
PACF 图 没有 列 出 ， 读 者 可 自行 操作 本 例 数 据 ， 观 察 有 关 结 果 。 
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a. The underlying process assumed is Independence (white 
noise). 
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b. Based on the asymptotic chi-square approximation. Lag Number 


结果 22-71 序列 z3 GK É] data22-6.sav 数据 ) 的 ARIMA(1,1,0) 模 型 的 残 差 自 相关 检验 


本 例 得 到 的 最 终 模型 (为 方便 表述 ， 令 Y=z3) 的 数学 表达 式 为 
0—6,B)1 - BY, =u +a, 
其 中 ，9 为 自 回归 系数 ，u 为 常数 ，a 为 白 噪 声 。 将 参数 值 代入 ， 得 
(14-0.343BY(1 — B)Y, = 0.242 + a, 


进一步 化 简 ， 得 
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Y, + 0.343BY, — BY, —0.343B? Y, = 0.242 + a, = 
Y, = 0.242 + 0.657Y,_, + 0.343Y,_, + a, 


a 注意 : 为 了 能 看 懂 参 数 估计 结果 和 正确 写 出 ARMA 模型 的 方程 式 ， 读 
”者 必须 熟悉 ARIMA 模型 的 因 式 表达 ， 对 此 不 熟悉 的 读者 请 仔细 阅读 本 章 
22.1 节 有 关 介 绍 。 这 里 还 可 以 发 现 ，ARIMA(1,1,0) 通 过 恒 等 变 换 ， 居 然 变 成 
了 一 个 AR(2) 模 型 ! 由 两 参数 模型 (1 个 自 回归 系数 和 1 个 常数 ) 变 成 了 三 
参数 模型 (2 个 自 回归 系数 和 1 个 常数 )。 从 这 里 也 可 以 看 出 ，ARIMA 模型 
的 形式 不 是 唯一 的 。 细 心 的 读者 会 发 现 ，AR(2) 形 式 的 模型 的 两 个 自 回归 系 

数 并 不 能 自由 取 值 ， 存 在 所 谓 参数 宛 余 的 现象 。 


例 22-9 建 模 再 讨论 ;比如 ， 有 理由 认为 非 平稳 随机 序列 中 有 随时 间 变 化 的 长 期 趋势 ， 
z3 是 模拟 数据 ， 我 们 知道 ¿3 中 有 时 间 变 量 i 的 线性 函数 成 分 ， 所 以 ， 可 以 先 以 23 为 因 变 
量 ， 以 ;为 自 变量 建立 线性 回归 方程 ， 然 后 再 去 对 此 回归 方程 的 残 差 拟 合 ARMA 模型 。 当 
知道 残 差 模型 结构 后 〈 本 例 为 AR(2))， 直 接 拟 合 ARIMAX 模型 GRA p=2, d=0, q=0, jf” 
把 i 选 入 到 Dependents 栏 即 可 )， 最 终结 果 为 

Y, — —9.691-- 0.655Y, , +0.341Y, , +0.243i +a, 

Hop. Yon. a 为 白 噪 声 。 此 结果 请 读者 自行 验证 。 

利用 例 22-8 的 识别 结果 ， 对 序列 z6 建立 ARIMA 模型 。 

在 例 22-8 P, 已 分 析 了 z6 为 需 拟 合 混合 模型 ARIMA(?,0,?) 模 型 , 即 ARMA(?,?) 模 型 ， 
所 未 知 的 是 p. q 的 阶 。 对 此 类 问题 的 思路 是 ， 通 过 尝试 法 从 简单 到 复杂 建立 模型 ， 直 到 
模型 残 差 通 过 白 噪声 检验 ， 在 残 差 检 验 通过 的 模型 中 ， 选 择 参数 简约 的 模型 ， 同 时 兼顾 拟 
合 优 度 统 计量 (常用 AIC 和 BIC， 二 者 越 小 ， 模 型 拟 合 越 好 )。 

经 验 发 现 ， 对 于 多 数 数据 ，p，d，g 取 2 或 以 下 都 能 满足 拟 合 混合 模型 的 需要 。 

本 例 ， 对 序列 z6 分 别 建立 ARMA(1,1)，ARMA(2,1)，ARMA(1,2) 和 ARMA(2,2) 模 型 ， 
然后 分 别 对 残 差 做 白 噪声 检验 ， 同 时 比较 各 模型 的 AIC 和 BIC. 

首先 看 残 差 白 噪声 检验 的 结果 ， 如 果 此 项 检验 不 能 通过 ， 那 么 就 不 必 看 参数 估计 的 结 
ET. 结果 22-8 中 上 面 的 两 个 表 分 别 为 ARMA(1,D 和 ARMA(2,1) 的 残 差 白 噪声 检验 结果 ， 
看 表 中 最 后 1 列 的 已 值 ， 发 现 各 个 时 滞 的 自 相 关系 数 所 对 应 的 尸 值 很 小 ， 有 统计 学 意义 ， 
所 以 ， 这 样 的 序列 不 能 认为 是 白 噪声 。 白 噪声 检验 没有 通过 ， 则 这 两 种 模型 不 符合 要 求 。 
下 面 两 个 表 分 别 为 ARMA(1,2) 和 ARMA(2,2) 的 残 差 白 噪声 检验 结果 ,容易 看 出 , 这 两 个 模 
型 的 残 差 都 通过 了 白 噪声 检验 ， 列 入 备 选 模型 。 接 下 来 的 任务 就 是 要 从 两 个 备 选 模型 中 选 
出 最 优 模型 。 

为 什么 不 再 尝试 参数 更 多 的 模型 ， 比 如 说 ARMA(3.3) 这 样 的 模型 昵 ? 事实 上 ， 能 被 参 
数 少 的 模型 拟 合 的 数据 ， 基 本 上 也 能 被 参数 多 的 模型 拟 合 ， 但 过 多 的 参数 使 得 模型 复杂 难 
解 ， 一 般 就 不 必 考 虑 3 阶 以 上 的 混合 模型 了 。 
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与 统计 分 


Aulocorretations 模型 ARMA(1,1) 的 残 差 
utocorrelations 
Series: Error for z6 from ARIMA, MOD. 36 CON ^ 模型 ARMAC2,1) 的 残 其 
Series: Error for zó from ARIMA, MOD 37 CON 
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a. The underlying process assumed is independence (white a. The underlying process assumed is independence (white 


noise). nolse). 
b. Based on the asymptotic chi-square approximation. b. Based on the asymptotic chi-square approximation. 


Aulocorrelations 模型 ARMA(1,2) 的 残 差 


utocorrelations 模型 ARMA(2,2) 的 残 差 
Series: Error for z6 from ARIMA, MOD 38 CON ^ la AQ. 8A. 


Series: Error for zó from ARIMA, MOD 39 CON 


















L otion | StdEmor? | Volue qf Sg." Autocorrel = T ung prasa 
I E y 1 Lag aon Std. Eror arm 
2 2 1 — . 
3 3 2 .045 2 
4 4 3 .044 3 
5 5 4 .044 4 
6 6 5 .044 5 
7 7 6 044 ó 
8 8 7 044 7 
8 044 8 
044 
.044 
.044 
.044 
.044 
.044 
.044 
.044 
9. The underlying process assumed is independence (white 9. The undertying process assumed ls independence (white 
noise). noise). 
b. Based on the asymptotic chi-square approximation. b. Based on the asymptotic chi-square approximation. 


结果 22-8 4 种 模型 的 残 差 白 噪声 检验 结果 


两 个 备 选 模型 ARMA(1,2) 和 ARMA(2,2) 的 参数 估计 结果 和 拟 合 优 度 指标 见 结果 22-9。 
观察 结果 22-9 发 现 ， 无 论 依照 参数 简约 化 原则 还 是 AIC 最 小 准则 ， 模 型 ARMA(1,2) 
均 优 于 ARMA(2,2)。 看 参数 估计 表 ， 发 现 ARMA(2,2) 的 AR2 回归 系数 无 统计 学 意义 ， 提 
示 参 数 郊 余 。 另 外 ， 模 型 的 常数 项 无 统计 学 意义 ， 就 没有 必要 在 模型 里 保留 常数 项 了 。 取 
模型 结构 为 ARMA(1,2)， 即 p=1，d=0，gq=2， 不 保留 常数 项 ， 重 新 运行 ARIMA 过 程 ， 得 
到 最 终 参数 估计 结果 为 = 0.829,0, =0.624,0, =--0.554 。 仍 然 令 Y=z6， 最 终 模 型 的 数学 表 
达 式 为 
(I B)Y, = (1-0,B —0;B°)a, 
Et, a 为 白 品 声 。 将 估计 值 代 入 模型 ， 写 成 分 式 表 达 式 为 
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Rig» BEA 


1—0.624B + 0.554B? 
t = — A a; 


1—0.829B 


如 果 觉 得 这 样 写 不 好 理解 ， 可 以 将 本 式 展 开 ， 得 
Y, = 0.829Y,., + a, — 0.624a,_, + 0.554a,_; 


Residual Diagnostics For ARMA(1,2) Residual Diagnostics For ARMA(2,2) 


Number of Residuals Number of Residuals 500 
Number of Parameters Number of Parameters 4 
Residual df Residual df 495 
Adjusted Residual Sum of Adjusted Residual Sum of 512.153 
Squares ' Squares ` 


Residual Sum of Squares , Residual Sum of Squares 595.371 


Residual Variance 1.029 Residual Variance 1.031 
Model Std. Error 1.014 Model Std. Error 1.015 
Log-Likelihood -715.523 Log-Likelihood -715.478 
Akaike's Information Akaike's Information 

Criterion (AIC) 1439.045 Criterlon (AIC) 1440.957 
Schwarz's Bayesian Schwarz's Bayesian 


Criterion (BIC) Criterion (BIC) 1462.030 


1455.904 





Parameter Estimates For ARMA(1,2) 
— Emate | Sid Eror RENNESSTET 
Non-Seasonal ARI 
Lags MA] 
MA2 
Constant 
Melard's algorithm was used for estimation. 





Parameter Estimates For ARMA(2,2) 


Non-Seasonal AR] 
Lags AR2 


MAI 
MA2 





Melard's algorithm was used for estimation. 


结果 22-9 ”两 个 备 选 模型 的 比较 


22.5.3” 带 有 季节 因子 的 ARIMA 模型 


一 些 时 间 序列 存在 季节 性 周期 波动 ， 这 类 时 间 序 列 很 难 拟 合 参数 简约 的 普通 ARIMA 
模型 ， 如 果 加 入 季节 性 算 子 ， 则 拟 合 模型 变 得 非常 容易 。 季 节 性 周期 的 判断 取决 于 问题 的 
背景 知识 ， 此 外 ，ACF, PACF 图 也 可 以 帮助 发 现 季 节 效 应 。 季 节 性 参数 的 阶 主要 通过 尝试 
和 比较 的 方法 确定 。 季节 性 模型 的 简约 表述 为 (p,d,q)x(P,D,0),， 完整 的 公式 表达 见 公式 
(22-19). 

data22-7.sav 数据 为 菜市 连续 60 日 大 气 污染 物 总 悬浮 颗粒 CTSP) 的 
日 均值 监测 结果 。 试 对 TSP 建立 ARIMA 模型 。 

问题 解析 : 首先 对 TSP 序列 按照 上 节 所 述 方法 建立 某 种 形式 的 ARIMA 模型 ， 发 现 拟 
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[SPSS EE e 


合 结果 并 不 十 分 令 人 满意 ， 最 简约 的 模型 是 ARR, BUS: BA a A R ya RS 
验 ， 但 其 ACF 图 形 并 不 理想 。 考 虑 到 城市 TSP 污染 和 汽车 尾气 有 一 定 关 系 ， 而 城市 汽车 
的 密度 具有 日 历 效应 ， 周 六 和 周 日 车 较 少 ， 而 周一 和 周 五 可 能 车 较 多 。 所 以 ， 有 理由 推测 
TSP 浓度 序列 中 含有 周期 为 7 天 的 周期 性 波动 成 分 。 对 TSP 序列 做 ACF 图 ( 见 图 22-22) 
RIL, ACF 并 不 呈 通 常 的 截 尾 或 逐渐 衰减 , 而 是 在 时 滞 7 天 及 7 天 的 倍数 处 有 突然 的 上 升 ， 
这 是 周期 波动 在 ACF 上 的 典型 特征 , 这 种 特征 提示 我 们 应 该 考虑 建立 季节 性 ARIMA 模型 。 

本 着 由 简单 到 复杂 的 尝试 建 模 原 则 ， 找 到 最 佳 模型 结构 为 4,0,0)x(,0,0)7 。 模 型 的 残 
差 白 噪声 检验 请 读者 自行 验证 。 

TSP 


1.04 E] Coefficient 
T———Ubper Confidence Limit 


Lower Confidence 
it 











l 2. 3 4 5$ 6 7T $ 9 10 1 124 13 44 15 16 
Lag Number 


图 22-22 TSP 的 自 相 关 函 数 图 


令 FTSP， 按 公式 〈22-19) 写 出 最 终 模型 (1,0,0)x(,0,0)7 表达 式 为 
(0—6B)0 - BY, =u +a, 
代入 参数 估计 值 〈 见 结果 22-10), 1 
(1— 0.396B)(1— 0.357 B')Y, =0.151+a, 
一 般 写成 因子 表达 式 即 可 ， 如 果 觉 得 此 表达 式 抽 象 ， 则 将 上 式 展开 ， 得 
Y, =0.151+0.396Y,_, + 0.357Y, ; — 0.141Y, s + a, 

这 个 展开 式 可 以 这 样 理 解 : 当天 的 TSP 和 昨天 的 TSP 水 平 正 相关 ， 和 1 周 前 即 7 < 
前 的 TSP 水 平 正 相关 ， 式 子 中 的 负 系 数 是 用 8 天 前 的 TSP 浓度 来 校正 两 个 正 相 关 的 “ 矫 
枉 过 正 ” 的 效果 。 


Parameter Estimotes 





Non-SeasonalLags ARI .121 — 288 — 
Seosonol Logs Seasonal ART Ed 2442 .008 
Constant ps 18.914 .000 


Melard's algorithm was used for estimation. 


结果 22-10 TSP 序列 的 季节 性 模型 参数 估计 结果 
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226 ”季节 性 结构 分 量 模型 


22.6.1 概述 


Seasonal Decomposition， 从 其 英文 字面 来 看 ， 似 乎 可 以 译 做 季节 性 分 解 或 解构 ， 实 际 
上 这 种 翻译 不 妥 。 现 代 的 Seasonal Decomposition 实际 上 是 一 类 专门 为 有 季节 性 波动 的 数 
据 准 备 的 时 间 序 列 模型 ， 它 既 能 处 理 确定 性 季节 成 分 又 能 处 理 随机 性 季节 成 分 ， 称 为 季节 
性 结构 分 量 (Seasonal Structure Component) 模型 ， 也 可 简称 为 季节 成 分 (Seasonal 
Component) 模型 。 季 节 成 分 模型 具有 等 价 的 ARIMA (p,d,q)x P,D,Q), 表述 形式 ， 并 有 
相应 的 参数 估计 和 假设 检验 方法 。SPSS 的 Seasonal Decomposition 过 程 比较 简单 ， 只 能 处 
理 确定 性 的 季节 成 分 和 只 有 基本 的 参数 估计 结果 ,没有 提供 有 关 的 假设 检验 内 容 。 

传统 的 季节 分 量 模 型 将 随机 序列 主观 地 分 解 成 3 个 组 成 部 分 , 或 称 为 3 个 分 量 , 即 “ 趋 
ANE” “季节 分 量 ” 和 “随机 波动 ”趋势 分 量 使 用 多 项 式 拟 合 ， 季 节 分 量 用 傅 里 叶 变 
换 来 估计 。 其 数学 表达 式 为 

Y, = f(T,,S,,1,) (22-25) 

其 中 ， 工 代表 长 期 趋势 (可 以 是 线性 趋势 ， 也 可 以 是 周期 性 波动 或 长 周波 动 )，5, 为 
季节 因子 (幅度 和 周期 固定 的 波动 ， 日 历 效应 为 常见 的 季节 因子 )，1, 为 随机 波动 (可 视 
为 误差 )。 函 数 f 有 加 法 和 乘法 两 种 ， 常 用 乘法 模型 。 
e 注意 : 某 些 参考 书 将 SPSS £ 2 E #) 5 REY, = f(T,,S,,C,, L) 

` WAWA. kiki, 2 CX, EXEC, 的 解释 也 是 没有 根据 的 。 


季节 分 量 模型 在 应 用 过 程 中 有 两 个 缺点 : 其 一 是 人 为 地 将 随机 序列 分 解 成 3 个 固定 的 
成 分 不 一 定 科学 ; 其 二 是 当 有 新 的 数据 加 入 序列 后 ， 所 有 的 分 量 需 要 重新 估计 。 

季节 分 量 模型 要 求 无 缺失 数据 ， 在 处 理 前 数据 已 经 由 SPSS 系统 定义 好 时 间 变 量 并 指 
定 周期 。 


a 操作 提示 

Analyze IA À 

“Time Series * 

-Seasonal Decomposition 

打开 季节 分 量 过 程 的 主 对 话 框 〈 见 图 22-23)， 填 入 待 分 析 的 序列 变量 名 。Model 选项 
中 左 侧 为 乘积 型 模型 ， 右 侧 为 加 法 模型 ， 系 统 默认 为 乘积 型 模型 。Moving Average Weight 
为 移动 平均 序列 的 权重 选择 ， 一 般 用 默认 即 可 ， 如 果 周 期 为 奇数 时 间 单 位 ， 则 不 必 选 择 此 
项 目 。 如 果 需 要 将 所 有 结果 在 Output 窗口 输出 ， 则 需要 勾 选 Display casewise listing 项 。 
Save 子 对 话 框 选择 是 否 将 结果 以 新 变量 的 形式 添加 到 原始 数据 集中 。 
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图 22-23 季节 分 量 过 程 的 主 对 话 框 


22.6.2 ”分析 实例 


数据 文件 data22-8.sav 为 某 公司 连续 144 个 月 的 月 度 销售 量 记录 ， 变 
量 为 sales。 试 使 用 季节 分 量 模 型 分 析 此 数据 。 

首先 定义 时 间 变 量 ， 季 节 周 期 定义 为 1 年 ， 即 12 个 月 一 个 周期 。 

选择 乘法 模型 ， 将 结果 添加 到 原始 数据 集中 ， 然 后 做 趋势 线 图 ， 观 察 各 个 季节 分 量 的 
图 形 特征 。 结 果 见 图 22-24 至 图 22-27。 

本 过 程 可 以 产生 4 个 新 变量 ， 分 别 为 : 

。ERR_， 相 当 于 公式 (22-25) rRÉJ1,; 

° SAS_， 校 正 季节 因子 的 序列 ， 由 x1 计算 而 来 ; 

e SAF_， 相 当 于 公式 (22-25) 中 的 $5,; 

。STC_， 相 当 于 公式 (22-25) mmm. 

图 22-24: 实 线 为 原始 序列 ， 体 现 了 销售 量 呈 年 度 周 期 震荡 增长 的 特征 。 虚 线 为 修正 
了 月 度 效应 的 序列 ， 在 12 年 里 呈 稳 步 增 长 的 态势 。 

图 22-25: 季节 因子 呈 12 个 月 周期 的 规则 波动 ,发 现 一 年 中 ，6 一 9 月 间 公 司 销售 量 较 
大 ， 其 他 时 间 相 对 较 少 ，1 一 2 月 份 为 销售 淡季 。 
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Md 22-24 原始 序列 和 校正 了 季节 因子 作用 的 序列 图 
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图 22-25 季节 因子 图 
趋势 成 分 反映 公司 销售 量 在 12 年 里 呈 增 长 的 态势 ， 前 8 年 基本 平稳 增长 ， 


后 4 年 虽然 在 总 体 上 维持 了 前 8 年 增长 的 态势 ， 但 增长 过 程 波动 较 大 。 


图 22-26 


图 22-27: 随机 波动 成 分 ， 可 能 含有 模型 未 能 解释 的 因素 。 
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图 22-26 趋势 成 分 图 
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Kd 22-27 随机 波动 成 分 图 
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x 23 章 ”信和 度 分 析 


教育 学 和 心理 学 测量 常 借助 量 表 或 问卷 进行 。 量 表 能 和 否 测 得 所 需 测 量 的 东西 ， 以 及 测 
量 结果 的 可 靠 性 如 何 ? 需要 对 量 表 的 效 度 、 信 和 度 进行 评价 。 | 

效 度 指 的 是 量 表 是 否 测量 了 我 们 希望 测量 的 东西 。 例 如 ， 智 商 测验 是 否 真 正 反 映 了 管 
力 的 高 低 ? 生存 质量 量 表 是 否 真 正 反 映 了 人 们 的 生存 质量 ? 抑郁 量 表 是 否 真正 反映 了 病 
人 抑郁 的 程度 ?这 些 都 是 关于 效 度 的 问题 。 它 们 不 可 能 有 绝对 肯定 的 答案 。 尽 管 不 可 能 证 
明 效 度 ， 但 是 可 以 发 展 一 些 指 标 来 评价 效 度 。 一 般 来 说 ， 有 4 种 类 型 的 效 度 ， 内 容 效 度 、 
标准 效 度 、 结 构 效 度 和 区 分 效 度 。 内 容 效 度 是 一 种 基于 概念 的 评价 指标 ， 其 他 三 种 是 基于 
经 验 的 评价 指标 。 如 果 一 个 量 表 实际 上 是 有 效 的 ， 那 么 我 们 希望 上 述 4 种 效 度 指标 都 比较 
满意 。 本 章 不 对 效 度 评价 做 详细 介绍 。 

本 章 将 介绍 信 度 的 概念 、 评 价 信 度 的 方法 ， 以 及 SPSS 里 关于 信 度 评价 的 过 程 。 

信 度 是 指 测量 的 一 致 性 。 现 举例 说 明 信 度 的 含义 。 假 如 我 准备 调查 你 的 文化 水 平 ， 将 
文化 水 平 简单 地 定义 为 接受 正规 学 校 教育 的 年 数 。 问 题 是 :“ 你 在 学 校 里 读 了 几 年 书 ? ” 
接 下 来 记录 你 的 答案 。 假 如 我 能 够 消除 你 对 问题 和 答案 的 记忆 ， 我 会 重复 问 你 同样 的 问题 
并 记录 下 你 的 答案 。 通 过 考察 你 对 同一 个 问题 的 多 次 回答 ， 可 以 判断 答案 的 一 致 性 如 何 。 
答案 的 波动 越 大 ， 信 和 度 越 低 ; 回答 的 一 致 性 越 好 ， 信 和 度 越 高 。 

心理 测量 的 理论 源 自 心理 学 。 关 于 信 度 理论 的 基本 公式 是 

X; = t; +e; (23-1) 

其 中 ，X; 是 第 i WWE BU, ep RRAN, t EXT X 的 真实 分 数 。 假 定 真实 分 
数 和 误差 项 之 间 不 相关 ， 误 差 项 的 均 数 等 于 零 ， 即 COV(ri,ei) =0，E(ei)=0 。 按 照 经 典 的 
测量 理论 ， 各 个 测量 的 误差 项 是 不 相关 的 ， 测 量 得 分 之 间 的 相关 是 它们 真实 得 分 之 间 的 相 
关 造 成 的 。 

信和 度 定 义 为 

VAR (7i) 


PETR) (23-2) 





DEN 与 统计 分 析 


信和 度 是 真实 分 数 的 方差 和 实际 测量 得 分 的 方差 的 比 ， 它 等 于 实际 得 分 和 真实 分 数 的 平 
方 相 关系 数 。 

有 许多 测量 信 度 的 方法 , 这 里 介绍 最 常用 的 3 种 : 重复 测量 法 、 分 半 信 度 法 、Cronbach's 
a 信和 度 法 。 


23.1 ”重复 测量 法 与 分 半 信 度 法 


23.1.1 方法 介绍 


用 同样 的 量 表 ， 对 同一 组 被 调查 者 重复 进行 测验 。 两 次 测验 相距 时 间 不 能 过 长 ， 并 且 
假定 在 这 段 时 间 内 被 调查 者 的 情况 没有 发 生变 化 。 用 两 次 测验 各 项 得 分 间 的 相关 分 析 或 差 
异 的 统计 学 检验 结果 ， 则 可 以 说 明 该 量 表 调 查 信和 度 的 高 低 。 如 果 相 关 分 析 的 结果 是 有 统计 
学 意义 的 ， 或 者 统计 学 检验 发 现 两 次 测量 结果 的 差异 无 统计 学 意义 ， 则 具有 一 定 的 信和 度 。 
这 种 方法 特别 适用 于 事实 性 的 量 表 。 相 关 分 析 得 到 的 相关 系数 也 称 为 重 测 信 度 系数 ， 一 般 
要 求 达 到 0.7 以 上 。 

重 测 信 度 要 求 对 同一 样本 测定 两 次 ， 在 实施 中 有 一 定 的 困难 。 另 外 ， 被 调查 者 的 情况 
可 能 随时 间 发 生变 化 ， 那 么 两 次 测量 的 差异 就 不 单纯 是 由 随机 误差 造成 的 ， 重 复 测定 受 前 
一 次 测定 的 影响 ， 即 被 调查 者 在 接受 第 二 次 调查 时 会 记忆 前 一 次 调查 时 填写 的 答案 ， 因 而 
第 二 次 测定 的 结果 不 一 定 能 反映 被 调查 者 的 真实 情况 。 因 此 ， 重 复 测 定 的 间隔 时 间 不 宜 太 
长 ， 也 不 宜 太 短 ， 视 具体 研究 情况 而 定 。 多 数学 者 认为 一 般 以 2-4 周 为 宜 。 

在 不 可 能 进行 重复 调查 的 情况 下 ， 常 用 的 方法 是 将 调查 的 问题 条 目 分 成 两 半 ， 计 算 这 
两 半 得 分 的 相关 系数 r*〈 叫 做 分 半 信 度 系数 )， 以 此 为 标准 来 衡量 整个 量 表 的 信 度 。 

问题 是 如 何 分 成 两 半 的 。 一 般 事实 式 的 问题 是 不 太 容 易 分 半 的 ， 因 为 不 同 的 情况 ， 例 
如 年 龄 和 教育 程度 是 无 法 相 比 的 。 因 此 这 种 方法 一 般 不 适合 于 事实 式 量 表 。 对 于 态度 式 量 
表 ， 一 般 都 围绕 某 个 主题 进行 多 种 正 、 反 面 的 陈述 ， 由 被 调查 者 对 陈述 做 选择 。 例 如 “很 
不 满意 ”“ 不 满意 ”“ 既 非 满意 也 非 不 满意 ”“ 满 意 ”“ 很 满意 ”中 的 一 个 ， 对 以 上 5 种 
选择 分 别 赋予 1~5 分 ， 然 后 将 该 量 表 的 全 部 题 项 分 成 尽 可 能 相近 的 两 半 ， 按 前 后 两 部 分 或 
按 题 号 的 奇偶 性 分 都 是 可 以 的 , 只 是 要 注意 两 部 分 必须 尽 可 能 相当 (内 容 及 形式 、 题 数 等 )。 
计算 这 两 半 得 分 〈 分 别 看 成 两 个 量 表 ) 的 相关 系数 r。 不 过 这 只 是 原 半 个 量 表 的 信 度 ， 整 


个 量 表 的 信和 度 系数 尺 可 以 利用 斯 皮尔 曼 一 布衣 公式 〈Spearman-Brown Formula) 
R= 2, (23-3) 
l+r 





求 得 。 一 般 要 求 尺 大 于 0.7。 

采用 分 半 信 度 法 测量 信 度 的 优点 在 于 : 分 半 信 度 法 只 在 一 个 时 间 点 上 进行 ; 不 受 记忆 
效应 的 影响 ， 在 重复 测量 法 中 容易 出 现 的 误差 项 之 闻 的 相关 在 分 半 信 度 法 中 不 易 出 现 。 另 
外 ， 从 实用 的 角度 看 ， 分 半 信 和 度 法 比较 经 济 和 简便 。 

分 半 信 度 法 的 不 足 在 于 : 将 所 有 的 问题 条 目 分 为 两 半 的 方法 有 些 武断 。 不 同 的 分 半 方 
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mur 
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法 可 能 会 得 到 不 同 的 结果 。 


23.1.2 ”实例 与 操作 


OI 5 23-1 | 本 例 介绍 世界 卫生 组 织 生存 质量 测定 量 表 简 表 (WHOQOL-BREF) 
( 见 数据 文件 data23-1.sav) 的 信 度 分 析 。 通 过 这 个 例子 加 深 对 基本 概念 的 理解 ， 学 会 如 何 
借助 SPSS 软件 分 析 量 表 的 信 度 。 

随 着 社会 的 发 展 ， 人 们 对 健康 的 理解 越 来 越 全 面 。 健 康 不 仅仅 意味 着 生理 上 的 无 疾 ， 
还 包括 良好 的 心理 状态 和 社会 关系 。 

与 健康 有 关 的 生存 质量 概念 的 提出 源 自 世界 卫生 组 织 对 健康 定义 的 修订 。1985 年 , 世 
界 卫生 组 织 把 健康 定义 为 “不 仅 是 没有 疾病 和 病痛 ， 而 且 是 个 体 在 身体 上 、 精 神 上 、 社 会 
适应 上 的 完好 状态 。”( “as a state of complete physical, mental and social well-being and not 
merely the absence of disease or infirmity”)。 在 这 个 定义 基础 上 ， 人 们 希望 在 传统 评价 健康 
的 指标 ， 诸 如 发 病 率 、 患 病 率 、 死 亡 率 等 之 外 提出 一 些 新 的 指标 ， 用 来 评价 疾病 和 伤 残 对 
人 们 的 日 常生 活 的 影响 ， 个 人 对 健康 的 主观 感受 ， 躯 体 的 功能 状况 等 。 于 是 ， 与 健康 有 关 
的 生存 质量 一 一 这 个 曾经 被 称 为 “缺失 的 健康 测量 ”(the missing measurement in health) 的 
指标 被 提出 ， 并 且 受 到 入 们 和 许多 研究 者 的 关注 。 

目前 ， 与 健康 有 关 的 生存 质量 还 没有 一 个 统一 的 定义 。 尽 管 缺 乏 统一 的 定义 ， 但 是 人 
们 对 与 健康 有 关 的 生存 质量 的 内 洱 还 是 达成 了 共识 。 大 多 数 的 研究 者 都 认为 与 健康 有 关 的 
生存 质量 应 该 包括 5 个 领域 ， 即 生理 健康 领域 、 心 理 健 康 领域 、 社 会 关系 领域 、 环 境 领 域 
和 精神 信仰 领域 。 

世界 卫生 组 织 生存 质量 研究 小 组 把 与 健康 有 关 的 生存 质量 定义 为 :“ 不 同文 化 和 价值 
体系 中 的 个 体 对 与 他 们 的 目标 、 愿 望 、 标 准 以 及 所 关心 的 事情 有 关 的 生存 状况 的 体验 ”。 

是 一 个 内 涵 广 泛 的 概念 ， 它 包含 了 个 体 的 生理 健康 、 心 理 状态 、 社 会 关系 、 与 周围 环境 

的 关系 。 在 这 个 定义 之 下 ， 生 存 质量 主要 指 个 体 的 主观 评价 ， 这 种 对 自我 的 评价 根植 于 所 
处 的 文化 、 社 会 环境 之 中 。 

如 何 测量 与 健康 有 关 的 生存 质量 ? 需要 利用 专门 的 测量 工具 。 这 里 所 说 的 测量 工具 是 
指 特定 的 用 于 测量 与 健康 有 关 的 生存 质量 的 量 表 。 量 表 的 研制 是 一 个 复杂 的 工程 ， 需 要 时 
间 、 各 种 资源 和 耐心 。 简 而 言 之， 研制 量 表 的 基本 步骤 包括 : 概念 的 确立 ， 各 个 领域 和 方 
面 的 操作 化 定义 ， 条 目的 形成 及 筛选 ， 量 表 的 格式 ， 预 试验 ， 量 表 的 信和 度 ， 效 度 以 及 反应 
度 等 计量 心理 学 特征 的 考评 ， 量 表 的 修订 ， 现 场 试 验 等 过 程 。 

世界 卫生 组 织 与 健康 有 关 的 生存 质量 测定 量 表 (World Health Organization Quality of 
Life, WHOQOL) 是 由 世界 卫生 组 织 研制 的 ， 用 于 测量 个 体 与 健康 有 关 的 生存 质量 的 国际 
HER. 目前， 已 经 研制 成 的 量 表 有 世界 卫生 组 织 生存 质量 测定 量 表 (WHOQOL-100, 包 
A 100 个 问题 条 目 ) 和 世界 卫生 组 织 生 存 质 量 测定 量 表 简 表 “WHOQOL-BREF， 包 括 26 
个 问题 条 目 )。 量 表 是 在 世界 卫生 组 织 的 统一 领导 下 ， 由 15 个 (后 来 又 增加 了 9 个 ) 处 于 
不 同文 化 背景 、 不 同 经 济 发 展 水 平 的 国家 和 地 区 的 研究 中 心 共同 研制 的 。 
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DI 与 统计 分 析 — 


世界 卫生 组 织 生 存 质量 测定 量 表 简 表 (WHOQOL-BREF) 是 根据 实际 需要 ， 在 
WHOQOL-100 基础 之 上， 遵循 一 定 的 标准 简化 而 成 的 。 按 照 世 界 卫 生 组 织 生存 质量 研究 
小 组 的 设想 ，WHOQOL-BREF 从 4 个 领域 来 测量 生存 质量 ， 每 个 领域 下 面包 含 6 个 问题 
条 目 。 量 表 另 外 包括 两 个 用 于 测量 总 的 生存 质量 和 健康 状况 的 条 目 。 量 表 一 共 包 含 26 个 
问题 条 目 ， 结 构 见 表 23-1。 


表 23-1 WHOQOL-BREF 量 表 的 结构 





领 域 各 领域 下 属 的 条 目 
L 生理 领域 3. 您 觉得 疼痛 妨碍 您 去 做 自己 需要 做 的 事情 吗 ? pain 
(PHYSICAL HEALTH) 16. 您 对 自己 的 睡眠 情况 满意 吗 ? sleep 


10. 您 有 充沛 的 精力 去 应 付 日 常生 活 吗 ? energy 
15， 您 行动 的 能 力 如 何 ? mobility 
17. 您 对 自己 做 日 常生 活 事情 的 能 力 满意 吗 ? activities 
4. 您 需要 依靠 医疗 的 帮助 进行 日 常生 活 吗 ? medication 
18. 您 对 自己 的 工作 能 力 满意 吗 ? work 
H. 心理 领域 S. 您 觉得 生活 有 乐趣 吗 ? positive feelings 
(PSYCHOLOGICAL) 7. 您 能 集中 注意 力 吗 ? think 
19. 您 对 自己 满意 吗 ? esteem 
1. 您 认为 自己 的 外 形 过 得 去 吗 ? body 
26， 您 有 消极 感受 吗 ? 〈 如 情绪 低落 、 绝 望 、 焦 虑 、 忧 郁 ) negative feelings 
6. 您 觉得 自己 的 生活 有 意义 吗 ? spirituality 

















II， 社会 关系 领域 20. 您 对 自己 的 人 际 关系 满意 吗 ? relationship 

(SOCIL RELATIONSHIPS) 22. 您 对 自己 从 朋友 那里 得 到 的 支持 满意 吗 ? support 
21. 您 对 自己 的 性 生活 满意 吗 ? sex 

IV. 环境 领域 8. 日 常生 活 中 您 感觉 安全 吗 ? safety 

(ENVIRONMENT) 23. 您 对 自己 居住 地 的 条 件 满意 吗 ? home 


12. 您 的 钱 够 用 吗 ? finances 
24. 您 对 得 到 卫生 保健 服务 的 方便 程度 满意 吗 ? services 
13. 在 日 常生 活 中 您 需要 的 信息 都 齐备 吗 ? information 
14. 您 有 机 会 进行 休闲 活动 四 ? leisure 
9. 您 的 生活 环境 对 健康 好 吗 ? environment 
25. 您 对 自己 的 交通 情况 满意 吗 ? transport 
总 的 生存 质量 和 健康 状况 1. 您 怎样 评价 您 的 生存 质量 ? 
2. 您 对 自己 的 健康 状况 满意 吗 ? 


量 表 初 步 研制 出 来 后 ， 需 要 通过 预 试验 考核 其 信和 度 和 效 度 。 在 预 试验 阶段 ， 各 个 研究 
中 心 采 用 量 表 调 查 至 少 300 名 对 象 ， 其 中 男女 各 半 ， 病 人 约 250 名 ， 健 康 人 约 50 名 。 接 
下 来 如 何 考核 WHOQOL-BREF 的 信和 度 和 效 度 ? 可 以 通过 下 面 的 步骤 来 进行 考核 。 











信 度 分 析 PEREG 


首先 考核 量 表 的 效 度 ， 踊 量 表 是 否 能 够 测量 和 人们 的 生存 质量 。 根 据 事先 对 生存 质量 的 
定义 ， 以 及 其 下 属 各 个 领域 的 定义 ， 对 照 量 表 各 个 领域 之 下 的 条 目 ， 请 专家 评价 该 量 表 是 
否 能 够 测量 人 们 的 生存 质量 ， 从 而 考核 量 表 的 内 容 效 度 。 利 用 证 实 性 因子 分 析 方 法 考核 量 
表 的 结构 效 度 。 采 用 1 检验 比较 正常 人 和 病人 在 生理 、 心 理 、 社 会 关系 和 环境 领域 平均 得 
分 的 差别 ， 发 现 差别 具有 统计 学 意义 (P 入 0.05)， 于 是 可 以 认为 量 表 具 有 较 好 的 区 分 效 度 。 
综合 上 面 的 分 析 ， 可 以 认为 量 表 WHOQOL-BREF 具有 较 好 的 效 度 。 

然后 考察 量 表 的 信 度 。 可 以 采用 重复 测量 的 方法 评价 量 表 的 信 度 。 即 随机 抽取 部 分 被 
调查 者 ， 在 相隔 一 周 的 时 间 内 采用 WHOQOL-BREF 进行 重复 调查 ， 假 定 在 这 一 周 内 被 调 
查 者 的 生存 质量 没有 发 生 改 变 。 对 前 后 两 次 的 调查 得 分 进行 相关 分 析 , 如 果 相 关 性 较 强 ( 例 
如 相关 系数 大 于 0.75)， 则 可 以 认为 量 表 具 有 较 好 的 信和 度 ， 反 之 ， 则 认为 量 表 的 信和 度 较 差 。 
具体 的 数据 分 析 可 以 借助 SPSS 中 的 Correlate 过 程 完成 。 

由 于 实际 情况 是 没有 对 被 调查 对 象 进行 重复 测量 ， 所 以 不 能 采用 重复 测量 的 方法 评价 
量 表 的 信和 度 。 为 此 可 利用 分 半 信 度 法 和 克朗 巴 哈 的 w 系 数 (Cronbach's a Coefficient) 评价 
量 表 的 信和 度 。 

WHOQOL-BREF 从 4 个 领域 评价 生存 质量 。4 个 领域 分 别 是 生理 领域 、 心 理 领 域 、 社 
会 关系 领域 和 环境 领域 。 考 核 量 表 的 信和 度 需 要 分 别 计算 各 个 领域 的 分 半 信 度 系数 和 克朗 巴 
Wo 系数 。 下 面 以 环境 领域 为 例 首先 介绍 分 半 信 和 度 系数 的 计算 。 

环境 领域 包含 8 个 问题 条 目 ， 各 个 条 目的 内 容 、 平 均 得 分 和 方差 等 列 于 表 232. 














表 23-2 环境 领域 各 个 问题 条 目 得 分 情况 











环境 领域 问题 条 目 平均 得 分 标准 差 
1. 日 常生 活 中 您 感觉 安全 吗 ? 3.35 0.731 
2. 您 的 生活 环境 对 健康 好 吗 ? 3.11 0.869 
3， 您 的 钱 够 用 吗 ? 2.86 0.841 
4. 在 日 常生 活 中 您 需要 的 信息 都 齐备 吗 ? 2.89 0.796 
5. 您 有 机 会 进行 休闲 活动 吗 ? 3.02 0.872 
6. 您 对 自己 居住 地 的 条 件 满意 吗 ? 3.18 0.941 
7， 您 对 得 到 卫生 保健 服务 的 方便 程度 满意 吗 ? 3.20 0.863 
8， 您 对 自己 的 交通 情况 满意 吗 ? 3.19 0.925 
环境 领域 总 分 * 24.81 4.298 


*， 环 境 领 域 总 分 等 于 8 个 问题 条 目 得 分 相 加 。 


计算 量 表 的 分 半 信 度 。 随 机 把 1, 3, 6, 7 条 目 分 在 前 半 部 分 ， 剩余 的 问题 条 目 分 在 后 半 
部 分 。 计 算 前 半 部 分 得 分 的 总 和 ， 记 为 H1; 再 计算 后 半 部 分 得 分 的 总 和 ， 记 为 H2。 计 算 


H1 和 H2 的 相关 系数 ， 得 r=0.694。 于 是 分 半 信 和 度 系 数 等 于 
2r 2x0.694 

= = =0.819 

1+r 1+0.694 








说 明 量 表 的 信 度 较 好 。 
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23.2 Cronbach q 系数 


23.2.4 方法 介绍 


分 半 信 度 系数 是 建立 在 〈 奇 、 偶 ) 两 半 问 题 条 目 分 数 的 方差 相等 这 一 假定 上 的 ， 但 实 
际 数据 并 不 一 定 满足 这 一 假定 。 如 果 两 半 的 方差 不 相等 ， 则 信和 度 往 往 被 低估 。 克 朗 巴 哈 
(Chronbach LJ) 1951 年 提出 用 w 系数 来 测量 信和 度 : 


]- t (23-4) 


其 中 , kde HP aji 2 H WJ 3, s; 2928 i BEDU, s; 为 总 得 分 的 方差 。 
克朗 巴 哈 的 wx 系数 是 目前 最 常用 的 信 度 系数 ， 一 般 认 为 wx 系数 应 该 达到 0.7 以 上 ， 有 的 学 者 
认为 应 该 达到 0.9 以 上 。 f 

在 计算 wo 系数 的 时 候 ， 应 该 注意 有 些 调查 量 表 测 量 的 内 容 包含 几 个 领域 ， 例 如 ， 世 界 
卫生 组 织 生存 质量 测定 量 表 包含 生理 健康 、 心 理 状态 、 社 会 关系 、 环 境 4 个 领域 的 内 容 ， 
这 时 宜 分 别 计算 各 个 领域 的 a 系数 。 

分 半 信 度 法 和 a 系数 分 析 实 际 上 都 是 量 表 内 部 的 一 致 性 (Internal Consistency)。 前 者 
指 的 是 两 半 量 表 所 测 分 数 间 的 一 致 性 ， 后 者 指 的 是 量 表 中 条 目 与 条 目 间 的 一 致 性 。 这 是 一 
种 同 质 性 。 如 果 条 目 间 没有 一 臻 性， 那么 累加 的 做 法 就 没有 根据 。 为 了 提高 量 表 的 信 度 ， 
在 设计 量 表 时 要 注意 各 种 陈述 间 的 同 质 性 : 是 否 都 在 同一 方向 (或 相反 方向 ) 上 描述 了 某 
种 特征 的 程度 。 对 于 可 能 表现 异 质 性 的 条 目 要 尽量 加 以 排除 。 


23.2.2 SPSS 操作 选项 说 明 


> 操作 提示 ( 见 图 23-1 ) 


Analyze 
Scale . 
Reliability Analysis... 
> 操作 选项 说 明 
“Items: f8,f9,f12,..., f24,f25 定 定 义 需 要 分 析 的 量 表 条 目 
Model: Alpha 号 定义 信 度 分 析 模 型 ， 此 处 选择 Q. 系 数 
List item labels 号 列 出 条 目的 标签 
-Statistics . 号 定义 需要 计算 的 统计 量 
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L Reliability Analysis 


C Cochran chisquare | 


^ Hotelling's T-square [^ Tukey' test of additivity 
ÍV Intraclass correlation coefficient 
Moget: | Two-Way Mixed >] Type: | Consistency ` 


Confidence interv 引 135 x Test value: [0 





Ed 23-1 信和 度 分 析 对 话 框 23-2 ”信和 度 分 析 Statistics 子 对 话 框 


1. Model 下拉 列表 

选择 需要 计算 的 信和 度 系 数 。 包括 5 种 常用 的 信 度 系数 ， 系 统 默 认 的 是 克朗 巴 哈 wx 系 数 。 
5 种 常用 的 信和 度 系 数 分 别 为 : 

° Alpha， 克 朗 巴 哈 Q 系 数 。 

° Split-half， 分 半 信 度 系数 。 

e Guttman, Guttman 信 度 系数 ，lambdal 到 lambda6。 

* Parallel， 在 满足 条 目 间 方 差 相 等 条 件 下 ， 采 用 极 大 似 然 估 计 计 算 的 信和 度 系数 。 

* Strict parallel， 在 满足 条 目 间 方差 相等 、 均 数 相等 的 条 件 下 ， 采 用 极 大 似 然 估 计 计 

算 的 信和 度 系数 ， 检 验 模 型 的 拟 合 优 度 ， 估 计 误 差 方差 、 条 目 间 相关 系数 等 。 

2. Statistics 子 对 话 框 〈 见 图 23-2) 

该 对 话 框 包含 了 许多 统计 量 ， 有 具体 如 下 。 

° Descriptives for 复 选 框 组 : Item 给 出 各 条 目的 均 数 和 标准 差 ，Scale 给 出 量 表 总 分 的 
均 数 、 标 准 差 和 方差 ，Scale if item deleted 给 出 量 表 中 某 一 条 目 删除 后 各 个 指标 的 
变化 情况 ， 常 用 于 条 目的 筛选 。 

Inter-Item 复 选 框 组 : 输出 各 条 目 之 间 的 相关 系数 矩阵 〈Correlations) 和 协 方差 矩阵 
(Covariances ) 。 

Summaries 复 选 框 组 : 输出 所 有 分 析 变 量 的 二 次 指标 的 描述 性 统计 量 。 例 如 ， 给 出 
所 有 变量 的 均 数 、 方 差 、 协 方差 等 。 

ANOVA Table 复 选 框 组 :用 于 分 析 同 一 个 体 对 量 表 中 各 个 问题 条 目的 回答 是 否 相 
关 。 系 统 默认 值 是 不 进行 分 析 。 如 果 需 要 分 析 ， 可 以 选择 F test (对 各 变量 进行 重 
复 测量 的 方差 分 析 )、Friedman chi-square 〈 对 各 变量 进行 配伍 组 设计 资料 的 非 参数 
检验 ， 适 用 于 资料 呈 非 正 态 分 布 或 为 等 级 资料 的 情况 )、Cochran chi-square (适用 
于 变量 为 两 分 类 变量 )。 

Hotelling's T-square 复 选 框 : 检验 量 表 中 的 所 有 条 目的 均 数 是 否 相等 。 
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e Tukey's test of additivity 复 选 框 ， 检验 条 目 之 间 是 否 存在 相 乘 模型 的 交互 作用 。 

e Intraclass correlation coefficient 复 选 框 : 计算 组 内 相关 系数 ,评价 测量 的 一 致 性 。 提 
供 的 分 析 模 型 有 : 双 因 素 混 合 模型 (Two-Way Mixed)、 双 因素 随机 模型 (Two-Way 
Random)、 单 因素 随机 模型 (One-Way Random)。 当 个 体 效 应 随机 ， 条 目 效 应 固定 
时 ， 选 择 双 因素 混合 模型 ， 当 个 体 效 应 和 条 目 效应 都 是 随机 时 ， 选 择 双 因素 随机 模 
型 ， 当 考虑 个 体 效 应 随机 时 ， 可 以 选择 单 因 素 随 机 模型 。 可 供 选 择 的 指标 类 型 有 一 
致 性 和 绝对 一 致 性 系数 两 种 。 还 可 以 定义 置信 区 间 的 置信 和 度 〈Confidence interval) 
和 比较 的 参数 (Test value， 默 认 值 是 0)。 


23.2.3 ”实例 描述 


采用 Reliability Analysis 过 程 对 上 述 的 实例 进行 分 析 ， 计 算 环 境 领 域 的 分 半 信 和 度 系 数 、 
克朗 巴 哈 w 系数 (Cronbach's Alpha) 和 组 内 相关 系数 。 对 SPSS 给 出 的 主要 结果 解释 如 下 。 

结果 23-1 是 当选 择 了 Model 中 的 Split-half 后 给 出 的 结果 ， 包 括 将 8 个 条 目 平均 分 为 
两 半 后 各 自 的 Cronbach's Alpha 系数 、 两 部 分 的 相关 系数 、Spearman-Brown 分 半 信 度 系数 
和 Guttman 分 半 信 度 系数 。 


Reliability Statistics 

Cronbach's Alpha Part1 Value .682 
N of ltems 4 

Part2 Value 662 

N of Items 4 

Total N of ltems 8 
Correlation Between Forms .564 
Spearman-Brown Coeffient Equal Length .721 
Unequal Length .721 


Guttman Split-Half Coefficient 


"à. The items are: f8,f9,f12,f13. 
b. The items are: f14,f23,f24,f25. 


结果 23-1 选择 了 Model 中 的 Split-Half 后 给 出 的 结果 





结果 23-2 是 当选 择 了 Model 中 的 Alpha 后 给 出 的 结果 , 该 环境 领域 的 Cronbach's Alpha 
系数 等 于 0.779。 


Reliability Statistics 
Cronbach's 
Alpha N of items 


.779 8 


结果 23-2 ”选择 了 Model 中 的 Alpha 后 给 出 的 结果 


结果 23-3 给 出 了 组 内 相关 系数 的 计算 结果 ， 包 括 平均 的 组 内 相关 系数 〈0.779)、 相 关 
系数 的 95% LEE X [a] (0.743, 0.812)， 以 及 检验 总 体 相关 系数 是 否 为 零 的 结果 (P=0.000)。 
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Tntraciass Correlation Coefficient 
intraclass 95%Confidence Interval F Test with True Value 0 
Correlation” Lower Bound Upper Bound Vale dl d Sig 
Single Measures 306" .266 .351 4.531 360.0 2520 .000 
Average Measures qe 343 .812 4.531 360.0 2520 .000 


Two-way mixed effects model where people effects are random and measures effects are fixed. 

a. Type C intraclass correlation Coeffcients Using a Consistency definition-the between-measure is excluded from the denominator 
variance. 

b. The estimator is the same, whether the interaction effects is present or not. 

c. This estimate is computed assuning the interaction effect is absent, because it is not estimable otherwise. 


结果 23-3 ”组 内 相关 系数 的 计算 结果 
23.8 Cohen Kappa 系数 


Kappa 指数 用 来 描述 两 个 测量 手段 的 一 致 性 。 如 果 其 中 一 个 手段 为 标准 测量 手段 ， 那 
么 ， 它 就 是 标准 效 度 。 
23.3.1 方法 介绍 


当 观 察 结果 具有 s (2) 个 等 级 时 ， 两 个 测量 手段 的 观察 结果 可 列 成 sxs 表 如 下 : 


COD 


ci C2 


Cs 


(23-5) 





注意 : 公式 (23-5) 实际 是 由 第 6 章 所 介绍 的 基本 公式 (6-1) 演变 而 来 的 ， 和 基本 公 
X (6-1) 完全 等 价 。 当 % 检验 认为 两 种 测量 结果 之 间 具 有 一 致 性 后 ， 可 以 进一步 计算 反 
映 一 致 性 的 指标 Kappa 指数 。 具 体 步 骤 如 下 : 








符合 率 : n = 24: (23-6) 
n 
不 一 致 率 : Qo =1- D (23-7) 
MARAR: p, 2mm (23-8) 
n 
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我 们 用 这 个 Kappa 指数 来 描述 两 个 测量 手段 的 一 致 性 。 根 据 经验 ，Kappa>0.75， 可 以 
认为 一 致 性 较 好 ; 0.4 和 Kappa<0.75， 说 明 一 致 性 中 等 ; 如 果 Kappa<0.4,， 则 表明 一 致 性 较 差 。 


23.3.2 ”实例 描述 


两 名 放射 科 医 师 对 200 名 棉 悄 沉着 病 可 疑 患 者 的 XX 光 片 进行 读 片 的 诊 
断 结 果 见 表 23-3( 见 配 书 光盘 中 的 数据 文件 data23-2.sav)。 计 算 Kappa 指数 。( 资 料 来 源 : 
倪 宗 融 主编 ， 医 学 统计 学 ，1990) 





Kappa 指数 : K (23-9) 


表 23-3 200 PARTAA REBRE X 光 片 诊断 结果 


第 二 次 检查 $ i 

第 一 次 检查 正常 I H 
正常 78 5 0 83 
I 6 56 13 75 
u 0 10 32 42 
合计 84 71 45 200 


解 : (1) 计算 x? 值 





2 
afz Aij aene 


mim; 
因为 Zos, 79.49, MA x^ 值 大 于 相应 的 临界 值 。 
(2) 计算 符合 率 
P, XA 7856432 034 
(3) 计算 期 望 符合 率 
P. "dnm 38) + Sx TO + (42X45) gs 


(4) 计算 Kappa 指数 


kc BA-É .0.83-0.355 (0736 
1- F, 1- 0.355 


Kappa 指数 等 于 0.736， 说 明 两 次 检查 的 一 致 性 较 好 。 


23.3.89 ”操作 选项 说 明 


在 SPSS 中 可 以 借助 Crosstabs 过 程 完 成 Kappa 指数 的 计算 。 以 上 述 实 例 为 例 说 明 操 作 
过 程 及 结果 解释 。 
首先 按照 频数 表 资 料 的 数据 输入 格式 将 数据 输入 ， 见 图 23-3。 其 中 变量 x 代表 第 一 次 
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言 度 分 析 


检查 结果 ， 分 三 个 等 级 ， 分 别 用 0, 1, 2 表示 ; 变量 y 代表 第 二 次 检查 结果 ， 分 别 用 0，1， 
2 代表 三 个 等 级 ， 变 量 f 代 表 观 察 频数 。 


File Edit Yia Data Transform Analyre Graphs Wilities Yindow. Help 


siia ®| =l] in| nl rir OKA 





23-3 ”数据 输入 格式 


在 正式 分 析 前 ， 需 要 对 数据 进行 加 权 。 
a 操作 提示 
Data 
"B Weight Cases 
Weight Cases by —f— k | 
接 下 来 就 可 以 进行 Kappa 系数 的 计算 了 。 
a 操作 提示 (ME 23-4) 
Analyze 
Descriptive Statistics 
Crosstabs 


WB Crosstabs 








图 23-4  Crosstabs 对 话 框 
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单 击 Statistics 按钮 ， 选 择 需 要 计算 的 统计 量 ， 包 括 迷 和 Kappa 指数 ， 见 图 23-5。 


r Nominal — 


[- Coi fici | i 

I” Phi and Cramérs V 

[^ Lambda | 

[^ Uncertainty coefficient | | 
Nominal by Interval 一 一 一 ” 

I Eta | F Aisk 
i 1 | [^ McNema 
[  Cochuan's and Mantel-Haenszel statistics 


r= 





图 23-5 Statistics 子 对 话 框 


23.8.4 结果 解释 


结果 23-4 给 出 了 定义 的 表格 ， 包 括 行 变量 、 列 变量 和 频数 。 


第 一 次 检查 * 第 二 次 检查 Crosstabulation 








Count 
第 二 次 检查 
第 一 次 检查 正常 一 级 —£ 合计 
正常 78 5 0 83 
一 级 6 56 13 75 
= 0 10 32 42 
EE 84 71 45 200 





结果 23-4 ”定义 的 表格 


结果 23.5 给 出 了 好 检验 的 结果 ，P-0.000， 说 明 第 一 次 检查 和 第 二 次 检查 结果 之 间 存 
在 相关 性 。 于 是 ， 进 一 步 计算 衡量 两 次 检查 结果 一 致 性 的 Kappa 指数 。 


Chi-Square Tests 





Asymp.Sig. 
Value df (2-sided ) 
Pearson Chi-Square 219.384* 4 .000 
Likelihood Ratio 234.563 4 .000 
Liner-by-Linear Asscociation 146.290 1 .000 
N of Valid Cases 200 





a. 0 cells (.0%)have expected count less than 5. The minimum expected count is 9.45. 


结果 23-5 好 检验 的 结果 


结果 23-6 给 出 了 具体 的 Kappa 指数 。Kappa=0.737， 经 检验 总 体 Kappa 指数 不 为 零 ， 
说 明 两 次 检查 结果 的 一 致 性 比较 好 。 
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Asymp.Std. 








Value Error Approx.T° Approx. Sig. 
Measure of Agreement Kappa .737 .041 14.424 .000 


N of Valid Cases 200 


a. Not assuming the null hypothesis. 
b. Using the asymptotic standard error assuning the null hypothesis. 


结果 23-6 具体 的 Kappa 指数 


23.4 Kendall RER% (Kendalfs Coefficient of Concordance ) 


23.4.1 方法 介绍 


Kendall 和 谐 系 数 常用 于 考察 评分 者 信和 度 。 所 谓 评分 者 信和 度 〈Scorer Reliability )， 指 的 
是 多 个 评分 者 给 同一 批 人 进行 评分 的 一 致 性 程度 。 例 如 ， 在 教育 和 心理 测量 中 ， 常 常 关心 
不 同 的 评分 者 对 同一 个 主观 题 的 评分 是 否 一 致 ， 在 医学 临床 疗效 评价 中 ， 常 常 关心 不 同 的 
医生 对 同一 个 患者 的 评价 是 否 一 致 。 当 评分 者 人 数 为 2 时 ， 可 以 采用 Pearson 或 Spearman 
相关 系数 评价 一 致 性 ， 当 评分 者 人 数 多 于 2 个 时 ， 可 以 采用 Kendall 和 谐 系 数 考察 评分 者 
信 度 。 

Kendall 和 谐 系 数 的 计算 公式 为 ; 

[ER -ER n] 
[K?(N? - N)] 
KP, K 是 评分 者 人 数 ，N 是 被 评分 者 人 数 ，R; 是 第 i 个 被 评分 者 得 到 的 分 数 的 水 平等 级 

之 和 。 
若 评 分 中 出 现 相同 等 级 ， 则 需要 计算 校正 的 系数 。 公 式 如 下 : 
[X8 - (Ea ys] 


[K^(N? - N) KY Y (n? -n)/12] 


W =12x (23-10) 


W =12x (23-11) 
RP, n 为 相同 等 级 的 个 数 。 
23.4.2 ”实例 描述 


三 名 神经 内 科 医 生 对 6 名 重症 肌 无 力 患者 分 别 进行 肌 力 的 评分 ， 结 果 
见 表 23-4《〈 见 配 书 光盘 中 的 数据 文件 data23-3.sav)， 按 等 级 转换 后 结果 见 表 23-5。 试 评价 
三 名 医生 的 评分 者 信和 度 ， 计 算 Kendall 和 谐 系 数 。 
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表 23-4 三 名 医生 的 评分 结果 


医生 1 2 3 4 5 6 
m 35 40 37 30 38 42 
乙 32 36 31 30 35 40 
两 25 30 28 24 31 32 


表 23-5 三 名 医生 的 评分 等 级 结果 


医生 2 3 4 5 6 

甲 5 2 4 6 3 1 

à 4 2 5 6 3 1 

丙 5 3 4 6 2 1 

Ri 14 7 13 18 8 3 
R2 -(WR; "IN | 5 

ws ERN] onse oos 
[K?(N? — N)] 3! x (63 — 6) 


结果 说 明 三 名 医生 的 评价 结果 的 一 致 性 较 好 。 
23.4.3 SPSS 操作 选项 说 明 


可 以 利用 Nonparametric Tests 中 的 K-Related Samples... 过 程 计 算 Kendall 和 谐 系数 。 
按照 随机 区 组 设计 资料 的 数据 输入 格式 输入 数据 ， 见 图 23-6。 


kendall.sav SPSS Data Editor 





Edit View Data TIransform Analyze Graphs Util: 


SRS S| 2l Y- Le] AJ EIS il 


rm — 





a b c 
35.00) 320) 2500 
40.00 36.00 30.00 
3700| 3100 280 


i 


3000| — 3000 24.00 
3800! 35.00 31.00 
4200  — 4000 32.00 


Kd 23-6 数据 输入 格式 


a 操作 提示 ( 见 图 23-7) 


Analyze 
Nonparametric Tests 
“OK-Related Samples... 
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分 析 


Tei Type 一 一 一 一 一 一 


I Friedman [V KendafsW [7 Cochansg | 





23-7 Kendall 和 谐 系数 对 话 框 


2344 ”主要 结果 


结果 23-7 中 不 仅 给 出 了 Kendall 和 谐 系数 (Kendall's W 等 于 0.964), 而 且 还 给 出 了 卡 
方 检验 结果 (P=0.003)， 说 明 三 个 医生 评分 结果 具有 较 好 的 一 致 性 。 





Test Statistics 
N 6 
Kendall's W ? .964 
Chi-Square 11.565 
df 2 
Asymp. Sig. .003 


8. Kendall's Coefficient of Concordance 


结果 23-7 主要 输出 结果 
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第 24 章 ” 对 应 分 析 与 结合 分 析 





24.44 对 应 分 析 


24.1.1 方法 介绍 


对 应 分 析 (Correspondence Analysis)， 又 称 相应 分 析 ， 由 法 国 数学 家 JP. Beozecri 在 
1970 年 首次 提出 ， 主 要 用 于 分 析 二 维 列 联 表 中 行 因素 和 列 因素 间 的 对 应 关系 。 

眼睛 颜色 与 头发 颜色 之 间 关 系 的 研究 数据 见 表 24-1( 见 配 书 光盘 中 的 
数据 文件 data24-1.xls 或 data24-1.sav)， 该 研究 包含 了 5387 名 苏格兰 北部 的 开 斯 纳 斯 郡 
(Caithness) 小 学 生 的 眼睛 颜色 与 头发 颜色 ， 目 的 是 探讨 眼睛 颜色 与 头发 颜色 之 间 的 对 应 
关系 。 这 是 一 个 4x5 FIERA, Fisher 在 1940 年 首次 介绍 列 联 表 资料 的 典 则 分 析 时 就 是 用 
的 这 份 资料 。 


表 24-1 5387 名 小 学 生 眼 睛 的 颜色 与 头发 的 颜色 


头发 的 颜色 、 
眼睛 的 颜色 合计 
金色 红色 棕色 深 色 黑色 

深 色 98 48 403 681 85 1315 
棕色 343 84 909 412 26 1774 

蓝 色 326 38 241 110 3 718 
RE 688 116 584 188 4 1580 

* d 1455 286 2137 1391 118 5387 


资料 来 源 ，Michael J. Greenacre. Theory and Applications of Correspondence Analysis. 
Academic Press.1984, 256-259 


1. HAR 
设 有 RxC 列 联 表 ， 行 、 列 分 别 表 示 两 个 不 同 因素 的 R 个 水 平和 C 个 水 平 ， 表 中 的 频 
数 记 为 X=[x;) 





对 应 分 析 与 结合 分 析 EOPESG3 


CD 数据 变换 。 首 先 对 原 列 联 表 数据 进行 变换 。 
ue T izl2,R; j=1,2,...,C 
其 中 ，Ri 表示 第 i 行 的 合计 ，C; 表示 第 j 列 的 合计 ，N 表示 总 合计 。 在 学 习 列 联 表 的 x? 检 
验 时 , 我 们 知道 A 就 是 观察 频数 ，RiCj N 就 是 假定 行 因素 与 列 因素 互相 独立 时 的 理论 频 
É OBRAS (6-1))，Zy 相当 于 
观察 频数 -理论 频数 


标准 化 残 差 = 
JJ 理论 频数 
本 例 数据 变换 结果 见 表 24-2。 
524-20 324-1 资料 的 变换 值 Z 
眼睛 的 颜色 头发 的 颜色 
金色 红色 棕色 深 色 黑色 
深 色 —13.6444 -2.6129 —5.1964 18.5325 10.4736 
棕色 -6.2167 —1.0496 7.7360 —2.1505 -2.0624 
蓝 色 9.4828 —0.0220 -2.5982 -5.5341 -3.2074 
RE 12.6462 3.5083 -1.7101 —10.8920 —5.2038 


(2) 计算 两 个 “相关 和 矩阵”。 利用 变换 后 的 R 行 C 列 数据 阵 Z, 计算 每 两 行 的 “相关 系数 ”， 
可 得 一 个 “相关 系数 矩阵 ”RA; 再 计算 每 两 列 的 “相关 系数 ” 可 得 另 一 个 尺 行 C 列 的 “ 相 
关系 数 和 矩阵 ”RB。 可 以 证 明 ，RA 和 RB 有 相同 的 非 零 特 征 根 ， 但 特征 向 量 不 同 。 本 例 可 以 有 
3 个 非 零 特征 根 , 即 0.1992, 0.03009 和 0.0008595, 其 贡献 率 分 别 为 86.56%，13.07% 和 0.3796. 

(3) 基于 RA 做 一 次 因子 分 析 ， 得 到 行 因素 各 类 别 的 因子 负荷 。 本 例 取 2 个 因子 ， 计 
算 结 果 由 表 24-3 给 出 ， 其 中 最 后 一 列 是 两 个 因子 负荷 之 比值 。 


表 24-3 ”眼睛 的 颜色 〈 行 因素 ) 的 因子 负荷 





眼睛 的 颜色 第 1 因子 第 2 因子 因子 负荷 之 比值 
深 色 (Dark) -0.70274 0.13391 -5.2479 
棕色 (Medium) —0.03361 —0.24500 0.13718 
蓝 色 (Blue) 0.40030 0.16541 2.42005 
RE (Ligh) 0.44071 0.08846 4.98203 


(4) 基于 RB 再 做 一 次 因子 分 析 ， 得 到 列 因 素 各 类 别 的 因子 负荷 。 本 例 同 样 取 2 个 因 
子 ， 计 算 结果 由 表 24-4 给 出 ， 其 中 最 后 一 列 是 两 个 因子 负荷 之 比 。 


表 24-4 ”头发 的 颜色 〈 列 因素 ) 的 因子 负荷 


头发 的 颜色 第 1 因子 第 2 因子 因子 负荷 之 比 
金色 (Fair) 0.54400 0.17384 3.1293 
红色 (Red) 0.23326 0.04828 4.8314 
棕色 (Medium) 0.04202 —0.20830 —0.20173 
RE (Dark) -0.58871 0.10395 —5.6634 
RÉ (Black) -1.09439 0.28644 -3.8207 
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以 上 是 对 应 分 析 的 计算 部 分 ， 它 们 有 什么 作用 ”主要 就 是 显现 出 行 因素 与 列 因素 各 类 
别 间 的 对 应 关系 。 

2. 用 途 

(1) 最 优 对 应 

按 因子 负荷 之 比值 由 小 到 大 , 分 别 重 排 行列 中 各 类 别 的 顺序 。 本 例 中 , 眼睛 的 颜色 GT 
因素 ) 次 序 不 变 , 头发 的 颜色 ( 列 因素 ) 却 应 重 排 为 深 色 、 黑 色 、 棕 色 、 金 色 、 红 色 (Dark, 
Black, Medium, Fair, Red)， 从 而 得 到 表 24-5 的 最 优 对 应 。 


324-5 列 联 表 24-1 的 最 优 对 应 


眼睛 的 颜色 头发 的 颜色 
深 色 黑色 棕色 金色 红色 合计 
深 色 681 85 403 98 48 1315 
棕色 412 26 909 343 84 1774 
蓝 色 110 3 241 326 38 718 
浅 色 188 4 584 688 116 1580 
合计 1391 118 2137 1455 286 5387 


表 24-5 最 充分 地 反映 了 眼睛 颜色 和 头发 颜色 之 间 的 相关 性 , 即 眼 睛 由 深 色 到 浅 色 , fH 
对 应 地 ， 头 发 由 深 色 到 红色 。 

(2) 因子 负荷 图 

类 似 于 因子 分 析 的 因子 负荷 图 ， 以 第 1 因子 和 第 2 因子 为 横 轴 与 纵 轴 ， 以 因子 负荷 为 
坐标 值 ， 在 直角 坐标 系 中 ， 分 别 标 出 行 因素 的 各 类 别 与 列 因 素 的 各 类 别 的 位 置 ， 从 而 可 以 
看 出 , 行 因素 与 列 因素 类 别 之 间 的 对 应 关系 。 图 24-1 给 出 了 本 例 的 因子 负荷 图 ， 其 中 圆 点 
表示 眼睛 颜色 〈 行 因素 ) 的 各 类 别 ， 方 点 表示 头发 颜色 〈 列 因素 ) 的 各 类 别 。 不 难看 出 ， 
头发 的 深 色 和 黑色 与 眼睛 的 深 色相 对 应 ; 头发 的 金色 和 红色 与 眼睛 的 蓝 色 和 浅 色相 对 应 ， 
头发 的 棕色 和 眼睛 的 棕色 相对 应 。 


42=0.0301(13.1%) 


0.34 m 
black hair 


0.27 fair hair 
dark eyes blue eyes & C 


0.14 a ° 
` dark hair M 
red hairli light eyes 





0.04 i 


medium hair 
"a 


-0.27 





medium eyes & 





0.31 T T T T T T T i T 7T 
-1.2 -1.0 -0.8 -0.6 -04 -02 00 02 04 06 
4,70.1992(86.695) 





图 24-1 5387 名 小 学 生 眼 睛 颜色 与 头发 颜色 的 相应 分 析 因 子 负荷 图 


对 应 分 析 与 结合 分 析 甘于 


24.1.2 SPSS 操作 选项 说 明 


下 面 以 例 24-1 为 例 介 绍 SPSS 操作 。 
对 表 24-1 的 数据 进行 输入 ,并 以 “频数 ”变量 进行 加 权 (Weight Cases... )， 见 图 24-2. 





a 操作 提示 (MØ 24-3) 


Analyze | 
Correspondence Analysis... * uou. 

> 操作 选项 说 明 
Row: 了 眼睛 的 颜色 号 定义 行 变量 
ÜCoum. AK be — — — XENNXREC «c 
"5Model... x 一 定义 模型 
Statistics... 定义 需要 计算 的 统计 量 
Plots... ” 定义 需要 输出 的 图 形 











图 24-3 ”对 应 分 析 的 主 对 话 框 


(1) Model 子 对 话 框 
* Dimensions in solution 框 : 选择 分 析 结 果 的 维度 ， 一 般 默 认为 2 维 ， 可 以 定义 的 最 
大 维度 等 于 各 变量 中 的 最 小 维度 数 减 1。 
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* Distance Measure: 选择 距离 的 测量 方式 。 卡 方 距离 常用 于 分 类 变量 ， 欧 式 距 离 适 用 
于 数值 型 变量 。 

e Standardization Method: 选择 变量 的 标准 化 方法 。 

* Normalization: 选择 正 态 化 方法 ， 一 般 采 用 默认 的 方法 。 

(2) Statistics 子 对 话 框 

该 对 话 框 包含 许多 表格 和 统计 量 。 具 体 有 : 对 应 分 析 表 (Correspondence table), 1T 75 
浏览 表 (Overview of row points)、 纵 点 浏览 表 (Overview of column points), 1156 ide (Row 
profile)、 列 轮 廊 表 (Column profile)、 置 信 统 计量 〈Confidence statistics) 等 。 

(3) Plots 子 对 话 框 

根据 要 求 输出 对 应 分 析 图 。 一 般 采 用 默认 的 两 维 散 点 图 (Biplot)， 以 便 观 察 行 变量 和 
列 变量 两 个 变量 间 的 关系 。 


24.1.3 ”实例 分 析 


以 例 24-1 为 例 ， 按 照 上 面 的 操作 指示 ， 对 主要 的 结果 解释 如 下 。 
结果 24-1 为 一 个 对 应 分 析 表 ， 即 按照 原始 数据 整理 成 的 行 x 列 表 ， 反 应 眼睛 颜色 和 头 
发 颜色 不 同 组 合 下 的 实际 例 数 。 


Correspondence Table 








头发 的 颜色 


腿 睛 的 颜色 金色 头发 红色 头发 棕色 头发 WO 3: 3 黑色 头发 Active Margin 
深 色 了 眼睛 98 48 403 681 85 1315 
TREE 343 84 909 412 26 1774 
[4 1] 326 38 241 110 3 718 
UN 688 116 584 188 4 1580 
Active Margin 1455 286 2137 1391 118 5387 


结果 24-1 对 应 分 析 表 


结果 24-2 给 出 了 对 应 分 析 的 主要 结果 。 第 1 列 是 维度 , 维度 的 个 数 等 于 变量 的 最 小 分 
类 数 减 1， 在 此 的 最 小 分 类 数 是 眼睛 的 颜色 4 类 ， 所 以 维度 为 3。 第 2 列 是 奇异 值 ， 第 3 
列 是 特征 根 ， 第 4 列 是 卡 方 值 ， 第 5 列 是 概率 P 值 ， 随 后 给 出 了 各 个 维度 所 能 解释 两 个 变 
量 关系 的 百分比 。 可 以 看 出 ， 两 维 就 可 以 解释 99.6% 的 信息 。 


Summary 





Proportion of Inertia Confidence Singular Value 


Standard Correlation 
Dimension Singular Value Inertia Chi Square Sig. Accounted for Cumulative Deviation 2 
1 .446 .199 866 .866 012 974 
2 -173 -030 31 .996 .013 


3 .029 .001 .004 1.000 





结果 24-2 ”对 应 分 析 的 主要 结果 





对 应 分 析 与 结合 分 析 EFOPERG 


结果 24-3 中 的 两 个 表 分 别 给 出 了 行 变量 (眼睛 颜色 ) 和 列 变量 (头发 颜色 ) 在 各 个 维 
度 上 的 坐标 值 ， 以 及 每 个 类 别 对 各 个 维度 的 贡献 值 。 


Overview Row Pointsa 
EO 


Score in Dimension Contribution 
Ot Point to Inertia of 
Dimension Of Dimension to Inertia of Point 

最 睛 的 颜色 Mass 1 2 Inertia 1 2 1 2 Totai 

深 色 腿 睛 .244 1.052 -.322 .125 ,605 .145 .965 .035 1.000 
棕色 眼睛 .329 .050 .588 .020 .002 .657 .018 .981 .999 
蓝 色 腿 睛 .133 -.599 -.397 .026 .107 .121 .836 .143 .979 
RE .293 -.860 -212 060 286 -076 956 .039 .995 
Active Total 1.000 .230 1.000 1.000 


=. s F. 
8. Symmetrical normalization 


(a) 


Overview Column Points * 









Ot Point to Inertia of 
Dimension Ot Dimension to Inertia of Point 
3g tt Bp e, Mass 1 2 Inertia 1 2 1 2 Totat 
金色 头发 .270 -.814 -417 .088 .401 271 .907 .093 1.000 
红色 头发 .053 -.349 -116 .004 .014 .004 .770 .033 .803 
棕色 头发 .397 -.063 .500 .018 .004 .572 039 961 1.000 
RELER .258 .881 -.250 .092 .449 .093 .969 .030 1.000 
mes .022 1.638 -.688 .028 .132 .060 .934 .064 .998 


Active Total 1.000 230 1.000 1.000 





结果 24-3 ”坐标 值 及 贡献 值 


结果 24-4 是 对 应 分 析 最 主要 的 结果 一 一 对 应 分 析 图 , 从 图 形 中 可 以 看 出 两 个 变量 不 同 
类 别 之 间 的 关系 。 可 以 从 两 个 方面 来 阅读 对 应 分 析 图 。 首 先 ， 分 别 从 横 坐 标 和 纵 坐 标 方向 
考察 变量 不 同类 别 之 间 的 稀 朴 ,如 果 靠 得 近 , 则 说 明 在 该 维度 上 这 些 类 别 区 别 不 大 。 其 次 ， 
比较 不 同 变量 各 个 类 别 之 间 的 关系 ， 以 坐标 点 〈0,，0) 为 中 心 ， 可 以 将 平面 划分 成 不 同 的 
区 域 ， 位 于 相同 区 域内 的 不 同 变量 的 分 类 点 之 闻 的 关联 较 强 。 


Row and Column Points 
Symmetrical Normalization 





o 头发 的 颜色 
O 眼睛 的 颜色 








i o2-] RE 

20] 眼睛 。 红 色 头 

2 

" o f? o 深 色 眼睛 
Bolo cmm T 黑色 头发 





结果 24-4 ”对 应 分 析 图 
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按照 这 样 的 规则 ， 不 难看 出 ， 头 发 的 深 色 和 黑色 与 眼睛 的 深 色 相对 应 ; 头发 的 金色 和 
红色 与 眼睛 的 蓝 色 和 浅 色 相对 应 ; 头发 的 棕色 和 眼睛 的 棕色 相对 应 。 


24.2 ”结合 分 析 


24.2.1 方法 介绍 


结合 分 析 (Conjoint Analysis〉 是 一 种 应 用 广泛 的 市 场 研究 技术 。 近 些 年 来 ， 结 合 分 析 
广泛 地 应 用 在 消费 品 、 工业 产品 和 商业 服务 等 相关 领域 的 市 场 研究 中 , 取得 了 较 好 的 成 绩 ， 
在 我 国 越 来 越 受到 市 场 研究 公司 和 企业 的 重视 。 结 合 分 析 方 法 是 由 统计 学 家 Luckey 和 心 
理学 家 Luce 于 1964 年 提出 的 ， 适 用 于 估 测 消费 者 对 一 些 能 够 详细 定义 的 产品 或 服务 的 相 
对 重要 性 和 属性 水 平 效用 大 小 的 评价 。 

市 场 营销 研究 中 经 常 遇 到 的 问题 是 : 在 所 研究 的 产品 /服务 中 , 具有 了 哪些 属性 的 产品 最 
能 够 受到 消费 者 的 欢迎 ? 一 件 产 品 通常 拥有 许多 属性 如 价格 、 颜 色 、 款 式 以 及 产品 的 特有 
功能 等 ， 那 么 在 这 些 属 性 之 中 ， 每 个 属性 对 消费 者 的 重要 程度 如 何 ? 具有 哪些 属性 的 产品 
最 能 赢得 消费 者 的 青睐 ? 例如 : 一 台电 脑 具 有 价格 、CPU 型 号 、 内 存 大 小 、 硬 盘 容 量 、 品 
牌 、 售 后 服务 等 属性 ， 在 进行 产品 开发 时 ， 厂 商 关 心 的 是 消费 者 对 上 述 属性 不 同 水 平 组 合 
的 喜好 如 何 ? 即 什么 样 配置 的 电脑 最 能 赢得 市 场 ? 不 同 的 消费 群体 对 电脑 配置 的 要 求 有 
何不 同 ? 要 解决 这 类 问题 ， 传 统 的 市 场 研究 方法 往往 只 能 做 定性 的 调查 研究 ， 而 难以 做 出 
定量 的 回答 。 结 合 分 析 就 是 针对 这 些 问题 而 产生 的 一 种 定量 化 的 市 场 分 析 方 法 。 

1. 市 场 营销 中 结合 分 析 应 用 

e° 决定 产品 的 各 种 属性 〈 如 价格 、 品 牌 、CPU、 内 存 等 ) 在 消费 者 选择 产品 时 的 相对 

重要 性 ; 

。 确 定 最 受 欢 迎 的 属性 水 平 组 合 ， 估 计 其 市 场 占 有 率 ; 

。 根据 消费 者 对 属性 水 平 喜好 的 相似 性 ， 做 消费 者 市 场 分 类 。 

2. 术语 

在 介绍 结合 分 析 的 基本 原理 和 方法 之 前 ， 先 简单 解释 一 下 有 关 结 合 分 析 的 几 个 术语 。 

。 属性 〈Attributes): 又 称 因 素 、 因 子 ， 用 来 描述 产品 特征 的 变量 ， 如 价格 、 品 牌 、 

硬盘 容量 等 。 
e 属性 水 平 (Attribute Levels): 表示 属性 所 呈现 的 值 , 如 硬盘 容量 有 20GB, 40GB, 60GB 
等 。 

e 效用 函数 (Utility Functions): 也 叫 分 值 函 数 (Part-Worth Functions)， 用 于 描述 消 
费 者 赋予 每 种 属性 的 各 个 水 平 上 的 效用 。 

e 相对 重要 性 权 数 (Relative Importance Weights): 表示 某 种 属性 影响 消费 者 决策 的 重 
要 程度 。 

。 全 轮 廊 〈Full Profiles): 也 叫 完全 轮廓 (Complete Profiles)， 产 品 的 全 轮 廊 是 由 产品 
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的 全 部 属性 的 各 种 水 平 完 全 组 合 构成 的 ， 如 电脑 的 各 种 配置 。 
e 配对 表 (Pair-Wise Tables): 在 配对 表 中 ， 被 调查 者 每 次 评价 两 个 属性 ， 直 到 所 有 
可 能 的 属性 (每 两 个 属性 ) 都 被 评价 完毕 为 止 。 例 如 ， 评 价 电脑 的 不 同 价格 与 不 同 
CPU 型 号 的 各 种 组 合 ， 不 同 价格 与 硬盘 容量 的 各 种 组 合 。 
e 循环 设计 (Cyclical Designs): 用 于 减少 配对 比较 数目 的 一 种 设计 方法 。 
e 正 交 表 (Orthogonal Arrays): 是 一 种 用 于 正 交 设计 的 统计 表 。 正 交 设 计 可 以 减少 全 
轮廓 方法 中 的 组 合 数目 ， 且 能 有 效 地 估计 所 有 的 主 效应 。 
。 内 部 效 度 (Internal Validity): 表示 预测 的 效用 与 被 调查 者 实际 评价 的 效用 之 间 的 相 
关 程 度 ， 用 于 反应 结合 分 析 方 法 的 有 效 性 。 
3. 结合 分 析 的 工作 原理 
结合 分 析 是 根据 事先 确定 的 产品 属性 及 其 水 平 ， 模 拟 各 种 类 型 的 产品 ， 然 后 让 消费 者 
根据 自己 的 喜好 对 这 些 虚 拟 产品 进行 评价 ， 采 用 数理 统计 方法 对 消费 者 的 评价 结果 进行 分 
析 ， 从 而 对 每 一 属性 及 属性 水 平 的 重要 程度 做 出 量化 评价 。 在 这 个 分 析 过 程 中 ， 存 在 一 个 
基本 假定 : 结合 分 析 假 定 分 析 对 象 《〈 某 种 产品 或 服务 ) 是 由 一 系列 的 基本 属性 〈 如 价格 、 
品牌 、 售 后 服务 等 ) 及 产品 的 专 有 属性 (如 电脑 的 CPU 速度 、 硬 盘 的 容量 等 ) 所 组 成 ， 
消费 者 的 决策 是 理性 地 考虑 这 些 属 性 后 做 出 的 。 
结合 分 析 的 工作 原理 : 根据 结合 分 析 的 不 同类 型 ， 使 用 不 同 的 统计 方法 ， 如 普通 最 小 
二 乘法 、 加 权 最 小 二 乘法 和 分 对 数 分 析 法 将 受 访 者 的 回答 转化 成 重要 性 或 效用 。 用 这 些 统 
计 方 法 获得 的 实际 数值 并 不 是 最 重要 的 ， 重 要 的 是 与 各 种 属性 相关 的 价值 ， 或 各 属性 彼此 
之 间 的 关系 。 这 些 计算 方法 的 目的 是 以 量化 方式 揭示 消费 者 对 每 种 属性 的 潜在 评价 。 
4， 结 合 分 析 的 主要 步骤 
结合 分 析 需 要 复杂 的 实验 设计 和 计算 ， 需 要 借助 专用 的 分 析 软 件 来 实现 。 任 何 一 项 采 
用 结合 分 析 进 行 的 市 场 研究 ， 都 包括 了 从 确定 研究 目的 、 实 验 设 计 、 数 据 收集 、 分 析 和 计 
算 、 检 验 与 应 用 、 模 拟 市 场 ， 到 撰写 研究 报告 的 市 场 研究 全 过 程 。 这 里 我 们 把 结合 分 析 的 
全 过 程 归纳 成 5 个 步骤 ， 具 体 如 下 。 
(1) 明确 研究 问题 和 研究 目标 
根据 需要 解决 的 实际 问题 确定 具体 的 研究 目标 ， 常 见 的 目标 包括 决定 消费 者 市 场 分 
类 ， 确 定 产 品 的 各 种 属性 〈 如 价格 、 品 牌 、CPU、 内 存 等 ) 在 消费 者 选择 产品 时 的 相对 重 
要 性 ， 确 定 最 受 欢迎 的 属性 水 平 组 合 ， 估 计 其 市 场 占有 率 ， 等 等 。 
(2) 选择 一 种 具体 的 结合 分 析 方 法 
根据 不 同 的 研究 目的 和 数据 特点 ， 人 们 发 展 了 许多 结合 分 析 方法 ， 因 此 当 研 究 目 标 确 
定 后 ， 应 该 选择 合适 的 结合 分 析 方法 。 这 个 阶段 的 工作 还 包括 : @ 决定 属性 和 水 平 。 决 
定 能 描述 产品 /服务 特征 的 重要 属性 是 结合 分 析 的 最 重要 的 一 步 。 当 属性 决定 之 后 ,还 要 选 
择 每 个 属性 的 水 平 。 各 属性 所 含 的 水 平 数目 应 尽 可 能 平衡 ， 研 究 表明 : 一 个 属性 的 水 平 数 
目 增加 时 ， 即 使 起 点 保持 不 变 ， 该 属性 的 相对 重要 性 也 会 提高 。 水 平 的 范围 〈 从 低 到 高 ) 
可 以 比 实际 范围 低 一 些 或 高 一 些 , 但 不 能 设 定 得 太 离谱 , 脱离 了 消费 者 的 真实 偏好 和 理解 。 
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@ 设计 轮廓 组 合 形式 。 当 选 定 了 属性 及 其 水 平 数 之 后 ， 就 可 以 设计 轮 廊 了 ， 即 构造 不 同 
属性 和 水 平 的 组 合 方式 。 当 属性 和 水 平 的 数目 都 不 多 的 时 候 ， 我 们 可 以 把 属性 和 水 平 的 所 
有 组 合 视 为 轮廓 集合 , 让 消费 者 去 评价 , 这 种 方法 称 为 全 因子 设计 CFull-Factorial Design) 。 
但 如 果 属 性 和 水 平 的 数目 增加 了 ， 而 用 全 轮廓 法 收集 资料 时 ， 让 消费 者 评估 所 有 的 组 合 ， 
因子 设计 就 不 切合 实际 了 。 这 时 候 我 们 可 采用 部 分 因子 设计 (Fractional Factorial Design) , 
只 让 消费 者 选择 所 有 组 合 中 的 一 部 分 来 评价 。 最 常用 的 是 正 交 排列 法 COrthogonal Array) 。 

例如 ， 要 了 解 消费 者 对 不 同 设计 类 型 的 旅游 鞋 的 喜好 程度 。 通 过 定性 研究 确定 了 旅游 
鞋 突出 的 3 个 属性 是 鞋底 、 鞋 帮 和 价格 。 每 种 属性 按 3 个 水 平定 义 ， 如 表 24-6 所 示 。 这 
些 属 性 及 其 水 平 将 用 于 构造 结合 分 析 的 产品 模拟 。 


表 24-6 旅游 鞋 的 属性 水 平 


30 美 元 
45 美元 


属性 水 平 名 称 
鞋底 1 塑料 
2 KAM 
3 橡胶 
鞋 帮 1 猪 皮 
2 牛皮 
3 羊皮 
价格 1 15 美元 
2 
3 


(3) 数据 收集 

选择 有 代表 性 的 样本 ， 采 用 面对面 的 访谈 、 邮 件 访问 或 者 电话 访问 等 调查 方法 收集 资 
料 。 在 这 个 步骤 里 ， 要 注意 两 个 技术 细节 : O 选择 轮廓 展示 方法 。 由 于 全 轮廓 法 可 以 利 
用 部 分 因子 设计 减少 消费 者 评价 的 数目 ， 因 此 全 轮廓 法 是 最 主要 和 最 常用 的 方法 ， 它 要 求 
被 访 者 每 次 针对 产品 /服务 的 所 有 属性 进行 评价 。 轮廓 可 以 完全 用 文字 描述 ,也 可 以 辅助 于 
图 片 或 模拟 实物 ， 一 般 需 要 将 轮廓 制作 成 卡片 ， 也 可 以 通过 电脑 演示 。@@ 喜好 的 评价 方 
法 。 常 用 的 消费 者 对 模拟 产品 喜好 的 评价 方法 有 两 种 ， 排 序 法 《〈 非 定量 的 ) 和 评分 法 〈 定 
量 的 )。 全 轮 廊 法 可 利用 排序 法 ， 也 可 利用 评分 法 ， 评 分 法 是 比较 常用 的 方法 。 排 序 法 的 
主要 优点 是 可 能 比较 可 靠 ， 但 是 当 轮 廓 数目 较 多 时 比较 难以 执行 。 评 分 法 要 求 消费 者 在 一 
个 等 级 量 表 上 ， 给 出 喜好 评分 。 定 量 评分 比较 容易 分 析 和 执行 ， 但 消费 者 采用 评分 法 做 判 
断 时 ， 区 别 能 力 较 排序 法 差 。 常 用 的 评分 方法 是 从 1 到 9、1 到 5 的 李 克 量 表 ， 也 可 以 用 
百分制 ， 数 字 越 大 表示 越 喜 欢 。 

表 24-7 给 出 了 某 消费 者 对 模拟 的 旅游 鞋 产品 的 评分 。 采 用 1 到 9 的 李 克 量 表 评分 法 。 
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表 24-7 某 消 费 者 的 评价 
组 合 产品 鞋底 价格 喜好 打分 


m 
at 


© Oo y CON tA A U N 一 
w G U N N N = — = 
Q N e OÙ N — Q N — 
O — CA Aa QN t N ya 


1 
2 
3 
2 
3 
1 
3 
1 
2 


(4) 估计 和 评估 

选择 效用 计算 方法 ， 一 般 最 小 二 乘法 (OLS 回归 是 最 常用 的 方法 。 估 计 的 结果 必须 
加 以 评估 ， 目 的 是 为 了 评价 在 消费 者 个 体 层 次 和 消费 者 群体 层次 上 结合 分 析 模 型 的 正确 
性 。 结 合 分 析 模 型 正确 预测 消费 者 偏好 的 能 力也 可 以 评估 。 对 于 排序 和 评分 数据 ， 可 以 计 
算 消 费 者 的 实际 值 与 预测 值 的 相关 系数 ， 例 如 Pearson's 的 相关 系数 。 评 估 效 度 包括 内 部 效 
Æ (Internal Validity) 和 外 部 效 度 (External Validity) 两 部 分 ， 内 部 效 度 是 评价 模型 的 拟 
合 优 度 (Goodness-of-fit)， 以 及 轮廓 效用 的 组 合法 是 否 合 适 ， 外 部 效 度 是 评价 样本 对 总 体 
的 代表 性 。 

例如 , 表 24-8 给 出 了 每 个 属性 水 平 的 分 值 或 效用 , 以 及 每 个 属性 的 相对 重要 性 的 估计 
值 。 由 于 数据 是 关于 每 个 被 调查 者 的 ， 因 此 按 个 体 进行 分 析 ， 采 用 一 般 最 小 二 乘法 回归 方 
法 估计 。 


表 24-8 不 同属 性 水 平 的 效用 和 相对 重要 性 


属性 水 平 描述 效用 相对 重要 性 

鞋底 3 橡胶 0.778 0.286 
2 RA -0.556 
1 塑料 -0.222 

kN 3 牛皮 0.445 0.214 
2 猪 皮 0111 
1 羊皮 -0.556 

价格 3 15 美元 1.111 0.500 
2 30 美元 0.111 
1 45 美元 -1.222 

(5) 解释 与 应 用 


结合 分 析 的 结果 可 以 在 消费 者 个 体 层 次 上 进行 解释 ， 也 就 是 对 每 一 个 消费 者 的 喜好 计 
算 不 同属 性 水 平 的 效用 值 和 属性 的 相对 重要 性 , 并 且 分 析 个 体 对 产品 /服务 的 不 同 组 合 的 喜 
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好 反应 ; 也 可 以 对 结果 在 消费 者 群体 层次 上 进行 解释 ， 获 得 整个 群体 消费 者 不 同属 性 水 平 
的 效用 值 和 属性 的 相对 重要 性 ; 还 可 以 按照 某 种 属性 将 消费 者 进行 分 类 ， 例 如 ， 认 为 价格 
属性 最 重要 的 或 者 效用 值 相似 的 消费 者 归 成 一 类 ， 然后 分 析 其 与 整个 群体 或 不 同类 之 间 的 
喜好 差别 。 结 合 分 析 的 结果 可 以 用 于 新 产品 /服务 开发 和 设计 、 市 场 细 分 、 利 润 分 析 、 竞 争 
分 析 。 

例如 ， 由 表 24-8 结果 可 知 ， 对 鞋底 属性 而 言 ， 受 访 者 对 橡胶 底 的 喜好 最 大 ， 其 次 是 塑 
料 底 ， 最 后 是 聚 氨 脂 底 。 对 鞋 帮 属 性 ， 牛 皮鞋 帮 最 受 欢 迎 ， 其 次 是 猪 皮鞋 帮 ， 最 后 是 羊皮 
鞋 帮 。 对 价格 属性 ，70 元 的 效用 最 高 ，130 元 的 效用 最 低 。 从 相对 重要 性 上 看 ， 价 格 是 第 
一 位 的 ， 第 二 位 是 鞋底 ， 第 三 位 是 鞋 帮 。 由 于 价格 是 该 消费 者 最 关注 的 因素 ， 可 标记 此 消 
费 者 为 价格 敏感 型 。 

结合 分 析 的 前 提 假 定 是 : 产品 重要 属性 是 可 以 识别 的 和 可 以 确定 的 ; 消费 者 可 以 根 
据 这 些 属 性 对 各 种 可 供 选择 的 方案 做 出 评价 。 还 有 一 个 假定 是 : 可 以 忽略 属性 间 的 交 
互 作用 。 所 谓 交 互 作 用 ， 是 指 被 调查 者 给 某 个 组 合 的 评分 值 大 于 各 个 部 分 的 得 分 值 的 
简单 相 加 。 

但 是 在 实际 情况 中 ， 上 述 假 定 不 一 定 成 立 。 例 如 ， 有 时 品牌 的 名 称 和 形象 十 分 重要 ， 
消费 者 不 一 定 按 属性 去 评价 品牌 或 其 他 各 种 方案 。 即 使 消费 者 考虑 了 产品 的 属性 ， 前 面 介 
绍 的 模型 也 不 一 定 能 很 好 地 代表 他 们 的 选择 过 程 。 另 一 个 局 限 性 是 收集 数据 的 过 程 比较 复 
杂 ， 特 别 是 所 涉及 的 属性 数目 较 大 ， 并 且 模 型 又 要 按 个 体 来 估计 的 情况 。 

针对 这 些 问 题 ， 人 们 提出 了 一 些 新 的 结合 分 析 方 法 ， 混 合 型 结合 分 析 就 是 其 中 之 一 。 
混合 型 结合 分 析 是 结合 分 析 的 一 种 形式 ， 可 以 简化 收集 数据 的 工作 ， 它 不 但 可 以 估计 主要 
效应 ， 还 可 以 估计 交互 作用 。 在 混合 法 中 ， 消 费 者 只 评价 有 限 个 轮廓 ， 一 般 不 超过 9 个 。 
这 些 轮廓 是 从 总 设计 中 抽取 出 来 的 ， 不 同 的 消费 者 评价 不 同 的 轮廓 集合 ， 因 此 通过 一 组 消 
费 者 ， 可 使 所 有 感 兴趣 的 轮廓 都 能 被 评价 。 此 外 ， 还 要 求 消费 者 直接 评价 每 种 属性 的 相对 
重要 性 ， 以 及 对 每 种 属性 水 平 的 喜好 。 将 这 些 直 接 的 评价 和 那些 对 轮 廊 的 评价 相 结合 ， 
有 可 能 按 群体 水 平 来 估计 模型 ， 同 时 又 能 保留 一 些 个 体 的 差异 。 


24.8. SPSS 操作 选项 说 明 


结合 分 析 采 用 了 一 系列 的 现代 数理 统计 方法 ， 如 正 交 设计 、 回 归 分 析 等 ， 这 些 方法 的 
计算 量 巨 大 ， 只 有 通过 电脑 才能 实现 。 因 此 在 实际 的 市 场 研究 中 ， 必 须 有 专门 的 软件 来 实 
现 从 虚拟 产品 设计 到 估计 效用 模型 、 预 测 等 一 系列 过 程 。 一 些 常用 的 统计 软件 如 SPSS， 
SAS 和 BMDP 中 包含 有 结合 分 析 的 基本 模型 ， 此 外 还 有 一 些 结合 分 析 用 的 专门 程序 ， 如 
MONANOVA, TRADEOFF, LINMAP, ACA (Adaptive Conjoint Analysis), CONJOINT 
DESIGNER 等 。 下 面 介绍 如 何 使 用 SPSS 完成 结合 分 析 。 

SPSS 中 的 结合 分 析 由 三 个 单独 的 过 程 组 成 : ORTHOPLAN，PLANCARDS 和 
CONJOINT. 
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(1) ORTHOPLAN 过 程 

利用 正 交 设计 方法 生成 一 个 部 分 因子 计划 , 用 于 估计 主 效 应 。 在 此 不 考虑 交互 作用 
问题 。 

(2) PLANCARDS 过 程 

帮助 用 户 生成 实施 用 的 “卡片 ” 以 供 消 费 者 对 各 个 “卡片 ”( 即 各 个 轮廓 ) 做 排序 、 
评分 时 用 。 

(3) CONJOINT 过 程 

采用 一 般 最 小 二 乘 估计 法 做 结合 分 析 ， 该 方法 研制 者 认为 与 其 他 方法 同样 有 效 ， 而 且 
OLS 法 还 比较 简单 ， 易 于 解释 。 该 方法 允许 使 用 评分 、 排 序 或 分 类 3 种 方法 来 收集 数据 。 
此 外 ， 还 允许 有 离散 (discrete)， 线 性 (linear)， 理 想 (ideal) 和 反 理 想 Cantiideal) 4 种 
类 型 因子 。 离 散 因 子 水 平 与 数据 之 间 不 存在 相关 关系 ; 线性 因子 水 平 与 数据 存在 着 线性 关 
系 ， 例 如 ， 价 格 是 一 个 典型 的 线性 模式 因子 ， 因 为 消费 者 常常 偏好 较 低 的 价格 。 理 想 和 反 
理想 因子 横 式 有 时 也 称 为 二 次 函数 模式 ， 它 表明 了 因子 水 平 与 数据 呈现 一 种 简单 的 曲线 关 
系 ， 曲 线 可 以 向 上 或 向 下 , 拐点 即 是 消费 者 的 理想 点 或 反 理 想 点 。 在 一 项 产品 /服务 的 结合 
分 析 研 究 中 ， 不 同属 性 可 以 选择 不 同 的 因子 类 型 。 


24.23 ”实例 分 析 


某 厂 商 拟 研制 一 种 新 型 的 地 毯 清洁 器 ， 在 生产 前 需要 了 解 消费 者 对 不 
同 设计 类 型 的 清洁 器 的 喜好 程度 。 市 场 部 的 研究 人 员 采 用 结合 分 析 进 行 市 场 调研 ， 首 先 确 
定 了 影响 消费 者 偏好 的 5 个 属性 及 各 个 属性 的 水 平 ， 具 体内 容 见 表 24-9〈 见 配 书 光 盘 中 的 
数据 文件 data24-2.sav )。 


3249 地毯 清洁 器 的 属性 及 其 水 平 


属性 (变量 ) 变量 说 明 属性 水 平 
包装 (Package) 产品 的 外 包装 设计 3: A. B. C 
商标 (Brand) 产品 的 名 字 3: K2R. Glory. Bissell 
价格 〈Price) 价格 3: $1.19, $1.39, $1.59 
密封 (Seal) 是 否 有 较 好 的 密封 方法 2: 是 、 否 
退货 (Money) 是 否 有 退货 保证 2: ÉE. T 


下 面 说 明 如 何 利 用 SPSS 完成 本 例题 的 结合 分 析 。 

步骤 一 : 利用 Orthogonal Design 生成 计划 文件 

(1) 进入 产生 正 交 设计 方案 的 对 话 框 ( 见 图 24-4): Data—Orthogonal Design 一 Generate。 

(20 定义 各 属性 及 标签 : 在 Factor Name PIRA Package, 在 Factor Label 中 填 入 Package 
design， 然 后 单 击 Add 按钮 加 入 该 属性 水 平 。 

(3) 开始 定义 属性 水 平 : 单 击 Define Values 按钮 进行 属性 水 平定 义 。 


| 641 








图 24-4 产生 正 交 设计 方案 的 对 话 框 


(4) 完成 属性 水 平定 义 ， 对 Package 属性 水 平 进行 定义 ， 单 击 Continue 按钮 继续 其 他 
属性 水 平定 义 。 

(5) 生成 计划 文件 〈 见 图 24-5): 定义 完 所 有 属性 水 平 之 后 ， 单 击 File 按钮 ， 改 变 存 
储 路 径 与 文件 名 ORTHO.SAV. SPSS 会 告诉 你 “A plan was successfully generated...". 

(6) 单 击 Options 按钮 ， 可 以 定义 最 小 轮廓 数 和 保留 数 (Holdout Cases)。 所 谓 保留 数 ， 
指 不 参与 模型 估计 ， 只 用 于 考核 模型 的 轮廓 数 。 在 本 例 中 ， 产 生 了 18 个 轮廓 数 和 4 个 保 
留 数 ， 一 共 22 MHR. 

CD 可 以 通过 Data—Orthogonal Design Display 显示 得 到 的 卡片 。 


sjala mi -l-l = | Al TIE EERS a 
1: package 1 


B 
B 
c 
c 
A 
B 
A 
c 
c 
c 
B 
C 
A 
B 
A 
A 
B 
A 
c 
A 
A 


BISSEL. | Holdout 





图 24-5 得 到 的 正 交 设 计 方 案 


步骤 二 : 对 消费 者 进行 调查 ， 收 集 数 据 

数据 文件 为 data24-2.sav。 结合 分 析 中 的 样本 含量 变化 较 大 , 有 学 者 报道 在 商业 性 的 结 
合 分 析 中 ， 样 本 含量 变化 从 100 到 1000， 最 常见 的 样本 含量 范围 是 从 300 到 550; 有 学 者 
指出 进行 结合 分 析 的 最 小 样本 含量 是 100。 总 之 ， 要 有 足够 的 样本 含量 以 保证 结果 的 真实 
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和 可 信 , 一 旦 随机 抽取 了 样本 , 就 可 以 请 被 抽取 的 消费 者 对 各 种 轮廓 进行 喜好 评分 或 排序 ， 
将 收集 到 的 数据 输入 SPSS 中 。 图 24-6 显示 对 10 个 消费 者 调查 得 到 的 资料 。 在 这 里 ， 研 
究 者 是 采用 排序 的 方法 收集 消费 者 喜好 的 信息 的 。 例 如 ， 第 一 个 消费 者 最 喜欢 第 13 号 轮 
R, MA 13 排 在 第 一 ， 其 次 是 第 15 号 轮廓 ， 最 不 喜欢 第 16 号 轮廓。 


PSS Data Editor 
lile Edit Yiew Date Transform Analyze Graphs Utilities Window Help 


diga mi |-| xmi 的 | rir BERIS el 
f 1 





图 24-6 调查 得 到 的 数据 资料 


步骤 三 : 进行 结合 分 析 

Hü), SPSS 还 没有 提供 专门 的 菜单 和 图 形 对 话 框 来 完成 结合 分 析 ， 只 有 在 程序 编辑 
窗口 键入 相应 的 命令 ， 编 写 程序 ， 然 后 运行 该 程序 ， 才 能 完成 结合 分 析 ， 得 到 结果 。 下 面 
通过 本 例 介绍 基本 的 命令 。 

(1) 新 建 程序 文件 : File—New—SPSS Syntax. 

(2) 保存 程序 文件 : 保存 为 D:\output.sps (D 为 盘 符 )。 

(3) 运行 程序 文件 : RUN. 

程序 文件 及 说 明 见 表 24-10。 


表 24-10 程序 文件 及 说 明 


CONJOINT 调用 结合 分 析 过 程 

PLAN='D:ORTHO.SA V' 定义 计划 文件 及 其 路 径 
/DATA-'D:Vata24-2.SA V' 定义 数据 文件 及 其 路 径 
/SEQUENCE=PREF1 TO PREF22 定义 评分 方法 (SEQUENCE/RANK/SCORE) 
/SUBJECT=ID 定义 被 调查 者 的 表征 变量 D) 


/FACTORS=PACKAGE BRAND (DISCRETE) PRICE (LINEAR 定义 各 种 属性 及 其 类 型 


LESS) SEAL (LINEAR MORE) MONEY (LINEAR MORE) 
/PRINT=ALL 定义 输出 结果 是 否 包括 实验 数据 和 模拟 数据 
/UTILITY-'DARUGUTIL.SA V' 定义 效用 输出 文件 
/PLOT=SUMMARY. 定义 输出 图 形 类 型 
SAVE OUTFILE-'DARUGRANKS.SAV'. 定义 结果 输出 文件 及 其 路 径 
` PACKAGE 和 BRAND 属于 离散 型 分 类 变量 ，PRICE 属于 线性 类 型 的 属性 ， 价 格 越 低 消费 者 越 喜欢 (LESS 的 意思 ) ; 
在 此 将 SEAL 和 MONEY 定义 为 线性 类 型 的 属性 ， 消 费 者 喜欢 有 密封 (SEAL 的 YES) 和 有 退货 保证 (MONEY 的 YES) 的 
清洁 器 (MORE 的 意思 ， 因 为 我 们 定义 1 为 NO，2 为 YES )。 
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步骤 四 : 结果 解释 

结果 24-5 列 出 了 对 10 个 消费 者 调查 得 到 的 结果 总 结 。 结果 24-5 列 出 了 各 个 属性 的 重 
要 性 得 分 ， 其 中 包装 是 最 重要 的 ， 其 重要 性 得 分 为 35.63; 还 给 出 了 各 个 属性 水 平 的 效用 
值 。 一 个 有 趣 的 结果 是 价格 越 高 ， 消 费 者 越 育 欢 ， 这 与 事先 定义 的 价格 越 低 消费 者 越 喜 欢 
的 情况 相反 。 最 后 还 给 出 了 相关 系数 等 考察 模型 信 度 的 指标 。 


SUBFILE SUMMARY 


Averaged 
Importance Utility Factor 


— package package design 
[35.53 |-2.2333 -| A 


— 1.8567 t- B 
| 3667 I C 
l 
m~ Brand brand name 
1491, | .3667 | K2R 
La -.3500 | GLORY 
| 0167 | BISSEL 
| 
r— price price 
{29.41 |-1.1083 -| $1.19 
i -2.2167 -| $1.39 
(-3.3250 -| $1.59 
IB = -1.1083 
i 
m seal good housekeeping seal 
11.17 | | 2.0000 r NO 
ca 4.0000 H- YES 
J B = 2.0000 
l 
n money money-back guarantee 
8.87 || 1.2500 r NO 
u 2.5000 H- YES 
IB= 1.2500 


| 
7.3833 CONSTANT 


. 

Pearson's R = .982 Significance = .0000 
Kendall's tau = .892 Significance = .0000 
Kendall's tau = .667 for 4 holdouts Significance = .0871 


结果 24-5 对 10 个 消费 者 调查 得 到 的 结果 总 结 


综合 上 面 的 结果 ， 可 以 得 出 这 样 的 结论 : A 型 包装 、K2R 商品 名 、 较 高 价格 、 有 密封 、 
有 退货 保证 的 地 牧 清 洁 器 最 受 消费 者 欢迎 。 

结果 中 还 给 出 了 描述 属性 效用 值 大 小 和 属性 重要 性 的 直方 条 图 , 如 结果 24-6 中 两 图 所 
IRo 
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Summary Utilities 


Utility 
¿Ó S => 一 w 


A B Ë 
Package design 


Ca) 包装 属性 的 效用 值 大 小 直方 条 图 


Importance summary 





package design brand name price good money-back 
housekeeping guarantee 
seal 


Factor 


(b) 各 种 属性 重要 性 的 直方 条 图 
结果 24-6 直方 条 图 
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SPSS 函数 是 事先 编写 好 的 、 存 储 在 SPSS 软件 中 的 一 段 计算 程序 ， 用 以 实现 某 个 特定 
的 计算 功能 ， 产 生 新 的 变量 。 在 菜单 栏 选择 Transform 一 Compute， 进 入 Computer Variable 
(计算 产生 新 变量 ) 窗口 ， 可 调 出 SPSS 函数 。 在 使 用 这 些 函数 时 ， 只 需 给 出 函数 的 名 称 和 
一 些 必 要 的 参数 ， 就 可 自动 计算 函数 值 。 

1. 算术 函数 (Arithmetic functions) 


EE 
ABS) xi 
ARSINGr) sies 
ARTANGr) sim 
Cost nun 
Expem wana 
LGloem sis 

2 数值 型 
数值 型 
数值 型 
T 数值 型 
数值 型 
数值 型 
数值 型 
结 R 
数值 型 
数值 型 
数值 型 
数值 型 


















ETE 
pmüm | 
mim 
pam — | 
aun 
ECE 
LNerp Aname weak — — w | 
LNGAMMACarg) CO 
MODO 下 
RND) C 
ETE 
ECE 
EM 
[wm | 
E 
maw 
E 


SIN(arg) 正弦 函数 
SQRT(arg) 平方 根 函 数 
截 尾 函数 〈 取 整 函 教 ) 


2. 统计 函数 〈Statistical functions) 


EE 
CFVARLaJarg li 
MAX mara is 
MEAN, nl lis) 


MIN[.n](arg list) 最 小 值 函 数 


TRUNC(arg) 





















spss 函数 MERN 


函 数 名 功 能 
SD[.n](arg list) 标准 差 函数 


SUMI[.n](arg list) 求 和 函数 
VAR([.nlarg list) 方差 函数 


3. 缺失 值 函数 (Missing-value functions) 


若 所 列 变 量 为 缺 省 值 ， 则 函数 值 为 或 1， 否则 函数 值 为 F 或 0 ZAE 


结 
MARKENE sus 
ET wam 












续 表 
结 E: 











SYSMIS(varname) 若 所 列 变量 为 系统 缺 省 值 ， 则 函数 值 为 了 或 1， 若 为 自 定义 缺 省 或 为 | 逻辑 型 
有 效 值 ， 则 函数 值 为 F 或 0 


返回 某 变量 的 信 ， 忽 略 自 定义 缺 省 值 数值 型 或 者 字符 型 
4， 交 错 例 数值 函数 〈Cross-case function) 


» 能 CENE: 








将 某 变 量 的 个 体 值 向 后 延 ， 前 面 m A D COR ls S 数 信 型 或 者 字符 型 
b. 连续 型 累计 分 布 函数 (Cumulative distribution functions, CDF) 


& 数 名 功 能 
CDF.BETA(q,ab) 返回 在 beta 分 布 中 随机 变量 值 <g 的 概率 (0<4<1, a>0, b>0) 
CDF.CHISQ (q,a) 返回 在 卡 方 分 布 中 随机 变量 值 <gq 的 概率 〈9>0, a>0) 

20, ， 









Li 
Ra 






Rz 









x 
hzi 


值 


a 
gk 


fü 


** 
Ez 





CDEBVNORqlq2o | 返回 在 相关 系数 为 rC-1<r<1) 的 双 变量 标准 正 态 分 布 中 随机 变量 值 g1，g2 的 概率 
CDF.EXP(q,a) 返回 在 指数 分 布 中 随机 变量 值 <g 的 概率 (q20,a>0) 值 
CDF.F(q,a,b) BEE F 分 布 中 随机 变量 值 <4 的 概率 (q20, a>0, b>0) 数值 型 


CDF.CAUCHY(q,ab) 返回 在 Cauchy 分 布 中 随机 变量 值 <4 的 概率 (q2>0,b>0) 
CDEGAMMA(qab) ”| 返回 在 gamma 分 布 中 随机 变量 值 <q 的 概率 (92:0; a>0, b>0) 
CDF.HALFNRM(q,a,b) | 返回 在 半 正 态 分 布 中 随机 变量 值 <4 的 概率 (gq>a, b>0) 





# 
È 


" 


EE 
E 


返回 在 反 高 斯 分 布 中 随机 变量 值 <4q 的 概率 〈a>0, b>0) 
返回 在 Laplace 分 布 中 随机 变量 值 <g 的 概率 (b>0) 值 


u 
pa 
a, 


返回 在 logistic 分 布 中 随机 变量 值 <4 的 概率 (b>0) 


* 
E 


a 
FE 
i 


CDELNORMAL(qab) | 返回 在 对 数 正 态 分 布 中 随机 变量 值 <q 的 概率 gq>0, a>0, b>0) EEJ 
CDF.NORMAL/(q.a,b) 返回 在 正 态 分 布 中 随机 变量 值 <e 的 概率 (b>0) 。 当 参数 a—0,5-1 时 可 上 略 写 为 CDFNORM(q) | 数值 


Rs 


91818 
m m" 
2 
b5.EIG 
BRE 
nm 
352 
BigIS 
=< |> 
pip | S 
g = 


La 
gx 


CDF.WEIBULL(qab) | 返回 在 Weibull 分 布 中 随机 变量 值 <4 的 概率 (420, a>0, b>0) 数值 


La 
gr || e 


g 


a 
g 
T 
c 
2 
°| 
2 
= 
° 
= 





ik. pl PP tisiku të. FIOR ( 即 9 值 ) 及 其 自由 度 等 参数 CBD a, b iñ) 获得 分 位 4 值 以 左 的 概率 的 。 
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6. 连续 型 分 布 函数 的 道 〈Inverse distribution functions) 


























IDF.BETA(p.a,b) 



















IDF.CAUCHY(p.a,b) 


IDF.CHISQ(p,a) 返回 满足 函数 CDF.CHISQ(q.a) =p (0<p<1, a>0) 的 随机 变量 4 (8 mm | 






i ， 数值 型 
DE oan 
DEHAENE AM 


s 返回 满足 函数 CDF.LAPLACE(qa b) =p (O«p«l, b>0) 的 随机 变量 q (Ë 
M 


d, 返回 满足 函数 CDF.LOGISTIC(q,a,b) =p (0<p<1, b>0) 的 随机 变量 q 值 


IDF.LNORMAL(p,a,b) 返回 满足 函数 CDF.LNORMAL(q,a,b) =p (0<p<1, a>0, b>0) 的 随机 变量 4 值 
返回 满足 函数 CDF.NORMAL(q,ab) =p (0<p<1, b>0) . When a=0, b=1, alias 


SIE 
号 |= 
= I 
gË 
Q | 巴 
ul 

3 
OE 
«s 
BP 
€ |€ 


IDF.NORMAL(p,a,b) 





PROBIT(p) 的 随机 变量 g 值 
IDF.PARETO(p,a,b) 返回 满足 函数 CDF.PARETO(q,a,b) =p (0<p<1, a>0, b>0) 的 随机 变量 4 (Ë 
IDF.SMOD(p,a,b) 返回 满足 函数 CDF.SMOD(q,a,b) =p (0<p<1, a>1, b>1 的 随机 变量 ç 值 数值 型 

IDF.SRANGE(p,a,b) 返回 满足 函数 CDF.SRANGE(q,a,b) =p (0<p<1, a21, b>1 的 随机 变量 4 值 





; 返回 满足 函数 CDF.T(q,a) =p (0<p<1, a>0) 的 随机 变量 ç 值 
IDF.UNIFORM(p,a,b) 返回 满足 函数 CDF.UNIFORM(q,ab) =p (0<p<1, a<b) 的 随机 变量 4 (8 
IDF.WEIBULL(p,a,b) 返回 满足 函数 CDF.WEIBULL(q,a.b) =p (0<p<1, a>0, b>0) 的 随机 变量 g 值 


注 : 产生 累计 分 布 函数 的 逆 函 数 ， 即 由 概率 (p 值 ) 及 其 自由 度 等 参数 〈 即 a, b (D. 得 到 检验 统计 量 ZE. tE F 
值 等 临界 值 。 


7. 连续 型 概率 密度 函数 (Probability density functions, PDF) 


= 
g 
m 
- 
Z= 
s 
£ 















& m 

PDF.BETA(q,ab) 返回 在 beta 分 布 中 随机 变量 值 ç 的 概率 密度 值 0<4<1, a>0, b>0) 

PDF.BVNOR(q1,92,) 返回 相关 系数 为 r_1<r<D 的 标准 双 变量 正太 分布 中 随机 变量 值 91, q2 的 概 
率 密度 值 


返回 在 卡 方 分 布 中 随机 变量 值 g 的 概率 密度 值 Cq>0, a>0) mam 
返回 在 指数 分 布 中 随机 变量 信 g 的 概率 密度 值 (q>0, a>0) 











返回 在 半 正 态 分 布 中 随机 变量 值 g 的 概率 密度 值 “4>a, b>0) 
返回 在 反 高 斯 分 布 中 随机 变量 值 4 的 概率 密度 值 (320, a>0, b>0) 
返回 在 Laplace 分 布 中 随机 变量 值 g 的 概率 密度 值 “4>0, b>0) 


返回 在 对 数 正 态 分 布 中 随机 变量 值 4 的 概率 密度 值 (9>0, a>0, b>0) 


648 I 





sPss 函数 MERI 
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E 
»* 






E 数 名 
PDF.LOGISTIC(q,ab) 








返回 在 logistic 分 布 中 随机 变量 值 4 的 概率 密度 值 (b>0) 
PDF.NORMAL(q,ab) 返回 在 正 态 分 布 中 随机 变量 值 q 的 概率 密度 值 (b>0) 


PDF.PARETO(q,a,b) 返回 在 Pareto 分 布 中 随机 变量 值 q 的 概率 密度 值 (q2a>0, b>0) 

PDF.T(q,a) 返回 在 :分布 中 随机 变量 值 q 的 概率 密度 值 (a>0) 

PDF.UNIFORM(q,ab) 返回 在 均匀 分 布 中 随机 变量 值 q 的 概率 密度 值 (a<q<b) 

PDF.WEIBULL(q,a,b) 返回 在 Weibull 分 布 中 随机 变量 值 4 的 概率 密度 值 (420, a>0, b>0) 
ik: 产生 曲线 的 轨迹 值 ， 即 横 轴 对 应 的 纵 高 值 。 


8， 连 续 型 随机 变量 函数 (Random variable functions) 


» 
RV.BETA(a,b) 产生 服从 beta 分 布 的 随机 变量 值 (a0, b>0) 数值 型 
RV.CAUCHY (a,b) 产生 服从 Cauchy 分 布 的 随机 变量 值 (b>0) 数值 型 

产生 服从 卡 方 分 布 的 随机 变量 值 (a>0) 数值 型 


数值 型 




















数值 型 
数值 型 
数值 型 
数值 型 
数值 型 



















= 
B 
» 


















产生 服从 严 分 布 的 随机 变量 值 (a>0, b>0) 
产生 服从 gamma 分 布 的 随机 变量 值 (a>0, b>0) 
产生 服从 半 正 态 分 布 的 随机 变量 值 cb>0) 


RV.IGAUSS(a,b) 产生 服从 反 高 斯 分 布 的 随机 变量 值 〈a>0, b>0) 
产生 服从 Laplace 分 布 的 随机 变量 值 (b>0) 

产生 服从 logistic 分 布 的 随机 变量 值 (b>0) 值 型 
RV.LNORMAL(a,b) 产生 服从 对 数 正 态 分 布 的 随机 变量 值 Ca>0, b>0) 值 


产生 服从 正 态 分 布 的 随机 变量 值 (b>0) 。 当 均 数 a=0 时 ， 可 略 写 为 NORMAL(b) | 数值 型 
: 了 


数值 型 
数值 型 
数值 型 
数值 型 
数值 型 
数值 型 









RV.LAPLACE(a,b) 











RV.LOGISTIC(a,b) 


#e 









yx 
Es 


产生 服从 Pareto 分 布 的 随机 变量 值 (ax0, b>0) 


. 数值 型 
RV.T(a) 产生 服从 +: 分 布 的 随机 变量 值 (a>0) 数值 型 
A 值 型 





RV.UNIFORM(a,b) 产生 服从 均匀 分 布 的 随机 变量 值 (a<p) 。 当 参数 a=0 j, IRE UNIFORM(b) | 数值 型 
产生 服从 Weibull 分 布 的 随机 变量 值 Ca»0, b>0) 数 
注 ， 用 于 产生 随机 数 。 
9. 离散 型 累计 分 布 函 数 (Cumulative distribution functions of discrete) 
返回 在 伯 努 利 分 布 中 随机 变量 值 <4 的 概率 值 (gq=0 or 1 only, 0<a<1) 
JA 3 < <q<ai , USOS 


CDF.BINOMGq,a,b) 返回 二 项 分 布 中 随机 变量 值 < 的 概率 值 (0<q<a integer, O&b«1) 
CDF.HYPER(q,a,b,c) 返回 超 几 何 分 布 中 随机 变量 值 <e 的 概率 值 (a>0 integer, 0<c<a, 0<b<a, 
人 


返回 负 二 项 分 中 随机 变量 值 <4 的 概率 值 (a>0, 0<b<1, q>a) 
返回 泊 松 分 布 中 随机 变量 值 s4 的 概率 值 (a>0, 9>0) 










: 








结 
数值 型 
数值 型 
数值 型 









数值 型 
数值 型 
数值 型 
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10. 离散 型 概率 密度 函数 (Probability functions of discrete distributions ) 


函 数 名 X f 
PDF.BERNOULLI(q,a) 返回 在 伯 努 利 分 布 中 随机 变量 值 q 的 概率 密度 值 (q=0 或 者 1，0<a<s1) 


返回 在 二 项 分 布 中 随机 变 香 值 q 的 概率 密度 信 (0<q<a ,0<b<1) 数值 型 


PDF.GEOM(q,a) 返回 在 几何 分 布 中 随机 变量 值 ç 的 概率 密度 值 (9>0, 0<ag1) 











PDF.HYPER(q,ab,c) 返回 在 超 几 何 分 布 中 随机 变量 值 q 的 概率 密度 值 (a>0 ,0<c<a,0<b<a， 


max(0,b—-a+c) <q<min(c,b)) 


PDF.NEGBIN(q.a,b) 
PDF.POISSON(q.a) 


11. 离散 型 分 布 随 机 变量 函数 (Random variable functions of discrete 
distributions ) 








.RV.BERNOULLI(a) 产生 服从 Bernoulli 分 布 的 随机 变量 值 COac D) 
RV.BINOM(a,b) 产生 服从 二 项 分 布 随机 变量 值 (a 为 正 整 数 , 0<b<1) 
RV.GEOM(a) 产生 服从 几何 分 布 随机 变量 值 (0<as1) 


RV.HYPER(a,b,c) 产生 服从 超 几 何 分 布 随机 变量 值 〈a WES, O<c<a,0<b<a) 数值 型 


RV.NEGBIN(a,b) 产生 服从 负 二 项 分 布 随 机 变量 值 (a 为 正 整数 ，0<p<1) 
RV.POISSON(a) 产生 服从 泊 松 分 布 随 机 变量 值 (a>0) 




















NCDF.CHISQ(g,a,c) 





NCDF.F(q,a,b,c) 


» 能 
NPDF.BETA(q,a,b,c) 返回 非 中 心 beta 分 布 中 随机 变量 值 g 的 概率 密度 值 CO «1, a>0, b>0, c>0) 
返回 非 中 心 卡 方 分 布 中 随机 变量 值 4 的 概率 密度 值 (gq>0, a>0, c>0) 
NPDF.F(q.a,b,c) 返回 非 中 心 下 分布 中 随机 变量 值 g 的 概率 密度 值 (q2>0, a>0, b>0, c20) 
返回 非 中 心 分布 中 随机 变量 值 q 的 概率 密度 值 (a>0, c>0) 
14. 逻辑 函数 (Logical functions) 




















ANY (arg, arg list) 如 果 字 符 串 包含 某 字 符 ， 则 返回 1 
RANGE(arg, arg list) 如 果 清 单 中 包含 某 字符 ， 则 返回 1 
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15. 字符 函数 (String functions) 


函 数 名 
CONCAT(arg list) 将 字符 串 相 连 成 一 个 新 的 字符 串 


INDEX(al,a2,a3) 








wee | 小 的 检测 字符 串 
LAG(arg,n) 返回 本 例 前 第 n 例 的 值 
LOWER(arg list) 转换 清单 中 的 字母 为 小 写字 母 
LPAD(a1,a2,a3) 在 字符 al 前 插入 字符 a3 到 指定 长 度 a2 
LTRIM(al,a2) 删除 字符 al 的 最 左 侧 字符 a2 
MAX(arg list) 返回 清单 中 的 最 大 值 
MIN(arg list) 返回 清单 中 的 最 小 值 
NUMBER(arg,format) T& format 格式 转换 字符 为 数值 
RINDEX(21,22,23) 返回 字符 a2 最 后 

个 小 的 检测 字符 串 





























UNIFORM(arg) 








NORMALí(arg) 





CDFNORM(arg) 





X 能 
返回 卡 方 分 布 中 随机 变量 值 >g 的 概率 值 (320, a>0) 
返回 下 分 布 中 随机 变量 值 >q 的 概率 值 (q20, a>0, b>0) 











à 8 g 
DATE.DMY(d,m.y) 组 合 数值 日 d， 月 m， 年 y 为 SPSS 日 期 数值 
DATE.MDY (m.d,y) 组 合 数值 月 m， 日 d， 年 y 为 SPSS 日 期 数值 日 期 数值 型 
DATE.YRDAY(y,d) Ep y HdA spss 日 期 数值 
DATE.QYR(q,y) | 组 合 数值 季 q， 年 y 为 SPSS 日 期 数值 日 期 数值 型 
DATE.MOYR(m,y) | acis m, f£ y 为 SPSS 日 期 数值 日 期 数值 型 
DATE.WKYR(w,y) 组 合 数值 周 w， 年 y 为 SPSS 日 期 数值 日 期 数值 型 
TIME.HMS(h,m,s) 组 合 数值 小 时 h， 分 钟 m， 秒 钟 s 为 SPSS 日 期 时 间 数 值 日 期 时 间 数 值 型 


TIME.DAYS(d) 转换 数值 天 数 d 为 SPSS 内 部 时 间 数 值 日 期 数值 型 
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19. 日 期 和 时 间 转 换 函 数 (Date and time conversion functions) 


asna | oe en 












功 能 


20. 日 期 和 时 间 提 取 函 数 (Date and time extraction functions? 


时 










XDATE.DATE(arg) 两 个 指定 日 期 之 间 相 隔 的 秒 数 ， 若 函数 只 含 一 个 日 期 变量 ， 则 计 | 数值 型 
算 指定 日 期 到 1582 年 10 月 15 日 之 间 的 秒 数 
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附录 B SPSS 统计 分 析 程 序 简介 





SPSS 的 主要 优势 就 是 简单 ， 通 过 简单 的 鼠标 点 击 便 可 完成 大 量 统计 学 分 析 工作 ， 但 
是 要 进行 高 难度 新 统计 方法 的 计算 ,有 时 仅 赁 鼠标 点 击 难以 完成 。 其 实 SPSS 也 可 类 似 SAS 
软件 进行 编程 。 在 SPSS 13.0 中 ， 单 击 Help 一 Command Syntax Reference， 便 可 获得 多 达 
1994 页 的 编程 语句 详细 说 明 。 

正如 SAS 软件 ,对 于 需要 多 次 重复 进行 的 多 个 程序 ， 只 需 将 所 有 程序 放 在 一 起 , 一 次 
运行 便 可 获得 最 终结 果 ， 所 以 利用 SPSS 编写 程序 有 助 于 提高 工作 效率 。 下 面 将 简单 介绍 
打开 SPSS 程序 编辑 窗口 的 方式 ，SPSS 的 常用 语句 ， 以 及 SPSS 的 常用 统计 分 析 过 程 。 


1. 程序 窗口 

在 SPSS 窗口 中 有 两 种 途径 可 以 进入 程序 编辑 窗口 。 

(1) 单 击 File 菜单 进入 程序 编辑 窗口 

-File 

New 或 Open 

Syntax 

在 程序 编辑 窗口 中 《〈 见 图 B-1)， 可 进行 程序 编辑 。 和 一 般 SPSS 窗口 相 比 ， 该 窗口 的 
菜单 选项 中 多 了 “Run” 菜 单 ， 单 击 “Run” 菜 单 后 弹出 下 拉 菜 单 ， 如 图 B-1 所 示 。 






Ee Edt View Data Transform Analyze Graphs UtüRies Window 

sja mg] 二 | ED = D| 的 | >| Q| Fal 2 | 
l Curent crer Í 
Io End 









图 B-1 “Run” 菜 单 的 下 拉 菜 单 
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其 中 : 

。 All， 运 行 全 部 程序 。 

* Selection， 运 行 所 选择 的 程序 。 

* Current， 运 行 光标 所 在 行 的 程序 ， 快 捷 键 为 Ctrl+R。 

° To End， 从 当前 语句 一 直 运行 到 程序 结束 。 

(2) Paste 按钮 

另 一 种 进入 SPSS 程序 的 方法 ， 是 单 击 对 话 框 上 的 “Paste” 按 钮 。 单 击 “Paste” 按 钮 
Ji, SPSS 系统 便 会 自动 在 程序 编辑 窗口 中 生成 程序 ， 该 程序 记录 了 所 选 过 程 的 整个 操作 
步骤 。 所 得 程序 可 以 直接 运行 ， 也 可 以 根据 需要 进行 修改 后 再 运行 。 所 有 的 SPSS 操作 过 
程 步 对 话 框 均 有 “Paste” 按 钮 。 

对 data2-1.sav 数据 文件 中 的 身高 进行 一 般 统计 学 描述 分 析 。 
a 操作 提示 

Analyze 


Descriptive Statistics 


Frequencies 
Joi 3-2 Vra RE (SG) 
“Statistics... 


“532 848 RL 65 TEE 
Continue 
“Charts... 
Histograms 

“With Normal Curve 
Continue 


单 击 “Paste” 按 钮 后 就 会 自动 生成 程序 ， 并 弹出 如 图 B-2 所 示 的 程序 编辑 窗口 。 


B Syntax3 ~ SPSS Syntax Editor m C 
Pile Edit View Data Iransfora Analyze Grephs Utilities Bun Window Help 

SEE t zi 
ui aim - cibi al +| @| gs :| 
FREQUENCIES ^ 
VARIABLES-SG 
/NTILES- 4 
/NTILES- 10 
/STATIST ICS-STDDEV VARIANCE RANGE MINIMUM MAXIMUM SEMEAN MEAN MEDIAN MODE SUM SKEWNESS SESKEV KURTOSIS SEKURT 
/GROUPED- SG 







/HISTOGRAM NORMAL 
ANALYSIS 


| /oRbER 






BE SPSS Processor is ready 





图 B-2 单 击 Paste 按钮 后 Frequencies 过 程 生成 的 程序 


2. SPSS 程序 的 常用 语句 
(1) IF 语句 
IF 语句 的 基本 结构 : 








SPSS 统计 分 析 程序 简介 MEE 


IF 逻辑 表达 式 ” 目标 表达 式 
e 逻辑 表达 式 : 表示 逻辑 判断 条 件 ; 
° 目标 表达 式 ， 表示 满足 逻辑 判断 条 件 后 所 进行 的 操作 。 
如 “IF (sex=2 or height>170) then class=1” 的 含义 是 : 如 果 变 量 sex=2 或 者 变量 
height>170， 那 么 class 的 赋值 便 等 于 1。 
(2) DO IF 语句 
DO IF 语句 可 以 处 理 有 多 重 分 支 的 情况 。 
DO 正 语句 的 基本 结构 : 
DO IF 逻辑 表达 式 
ELSE IF 
目标 表达 式 
ELSE IF 
目标 表达 式 
ELSE 
目标 表达 式 





END IF 


e 逻辑 表达 式 ， 表示 逻辑 判断 条 件 ; 
e 目标 表达 式 : 表示 满足 逻辑 判断 条 件 后 所 进行 的 操作 。 
例如 : 
DO IF (class=1). 
COMPUTE group-1. 
ELSE IF (class-2). 
COMPUTE group-2. 
ELSE 
COMPUTE group-3. 
END IF. 


Execute. 


这 段 语句 的 含义 是 : 当 class=1 FF, group-l; 当 class-2 BÍ, group-2; 当 class 为 其 余 
情况 时 ，group=3。 

(3) 循环 语句 

循环 结构 可 以 减少 源 程序 重复 书写 的 工作 量 ， 用 来 实现 重复 执行 某 段 算法 的 问题 。 

SPSS 中 的 循环 语句 有 LOOP/END LOOP 语句 等 。LOOP/END LOOP 语句 主要 用 于 建 
立 数据 集 和 数据 变换 。 

LOOP/END LOOP 语句 的 基本 结构 : 

LOOP 控制 变量 名 = 起 始 值 TO 终止 值 [BY 步 长 ] 

运算 语句 
END LOOP 
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与 统计 分 


例如 : 
SET MXLOOP-100. 
LOOP. 
COMPUTE y=y+1. 
END LOOP. 
EXECUTE. 


这 段 语句 的 含义 是 : 变量 y 每 循环 1 次 加 1， 共 循环 100 次 。 
(4) 打开 已 保存 文件 
语句 格式 : 


GET FILE='filename'. 


(5) 显示 数据 值 
可 由 LIST, PRINT 和 SUMMARIZE 显示 数据 ， 具 体 语 名 格式 如 下 。 


LIST [VARIABLES=varlist] 
[/CASES FROM m TO n]. 


PRINT/["string"]varlist[/] ["string"] [varlist] 
EXECUTE. 
PRINT /ALL. 

EXECUTE. 


SUMMARIZE 
/TABLES-varlist 
/FORMAT-LIST [LIMIT-n] 
/MISSING-INCLUDE 
/CELLSZCOUNT . 


(60 保存 文件 

语句 格式 : 

SAVE OUTFILE-'filename' 
[/COMPRESSED]. 


3. SPSS 常用 统计 分 析 的 程序 参考 
K B-1 列 出 了 常用 统计 学 分 析 方 法 所 采用 的 SPSS 程序 。 


表 B-1 SPSS 常用 统计 分 析 程序 


FREQUENCIES 由 FREQUENCIES 过 程 对 “变量 


VARIABLES= 变 量 1 1” 进 行 统计 学 描述 ， 如 产生 百 分 位 
/PERCENTILES= 2.5 25 50 75 97.5 数 , 获得 均 数 、 标 准 差 等 统计 学 指标 ， 
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SPSS 统计 分 析 程 序 简介 [maU 


# J 





/STATISTICS-STDDEV SEMEANMEAN MEDIAN SKEWNESS SESKEW KURTOSIS 
SEKURT 
/HISTOGRAM NORMAL 
/ORDER- ANALYSIS 
COMPUTE 1g 变 量 1 = LG10 (变量 1) 
EXECUTE . 
DESCRIPTIVES 
VARIABLES-lg 变量 1  /SAVE 


/STATISTICS-MEAN STDDEV SEMEAN KURTOSIS SKEWNESS 


绘制 直方 图 等 


首先 对 “变量 1” 进 行 对 数 变换 ， 
然后 利用 DESCRIPTIVES 过 程 计算 
变换 后 变量 “lg 变量 1” 的 均 数 、 标 
准 差 等 





T-TEST 
/TESTVAL=210 
/MISSING=ANALYSIS 
/VARIABLES= 变 量 1 
/CRITERIA=CIN (.95) 

T-TEST 
PAIRS= yl WITH y2 (PAIRED) 
/CRITERIA-CIN(.95) 


/MISSING-ANALYSIS. 


采用 单 样本 “变量 1” 检验 ， 看 
是 否 是 来 自 总 体 均 数 为 210 的 总 体 


配对 :检验 





T-TEST 
GROUPS-group(1 2) 
/MISSING-ANALYSIS 
/VARIABLES-y 


/CRITERIA-CIN(.95) 





ONEWAY 
Y BY group 
/STATISTICS DESCRIPTIVES HOMOGENEITY 
/PLOT MEANS 
/MISSING ANALYSIS 


/POSTHOC = SNK LSD ALPHA(.05). 





UNIANOVA 
y BY x1 x2 
/METHOD - SSTYPE(3) 
/INTERCEPT - INCLUDE 
/POSTHOC - x1 ( SNK TUKEY ) 
/EMMEANS = TABLES (x1) 
/CRITERIA - ALPHA(.05) 


/DESIGN = x1 x2 


两 个 独立 样本 1 检验 


单 向 方差 分 析 , 包括 齐 性 检验 、 绘 
图 、SNK、LSD 事后 检验 , 了 为 应 变 
量 ，group 为 分 组 变量 


采用 一 般 线 性 模型 的 UNIANOVA 
过 程 进行 双 因 素 (xl x2) 方差 分 析 ， 
应 变量 为 了 
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UNIANOVA 
Y BY x1 x2 x3 
/METHOD - SSTYPE(3) 
/INTERCEPT - INCLUDE 
/EMMEANS = TABLES (drug) 


/CRITERIA - ALPHA(.05) 


/DESIGN = no part drug . 


WEIGHT 
BY f. 
NPAR TEST 
/BINOMIAL (.60)-2 y 


/MISSING ANALYSIS. 





WEIGHT 
BY f. 

CROSSTABS 
/TABLES-x1 BY x2 
/FORMAT- AVALUE TABLES 
/STATISTICZCHISQ 
/CELLS- COUNT ROW . 

WEIGHT 
BY f. 

CROSSTABS 
/TABLES-x1 BY x2 
/FORMAT- AVALUE TABLES 
/ S'TATISTIC-MCNEMAR 
/CELLS- COUNT . 


NPAR TEST 


/WILCOXON= 方 法 1 WITH 方法 2 (PAIRED) 


/MISSING ANALYSIS. 
NPAR TESTS 

/M-W= y BY group(1 2) 

/MISSING ANALYSIS. 
WEIGHT 

BY f. 
NPAR TESTS 

/M-W= y BY group(1 2) 


/MISSING ANALYSIS. 
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采用 一 般 线性 模型 的 UNIANOVA 
过 程 进行 三 因素 (xl x2 x3) 方差 分 
析 ， 应 变量 为 了 


首先 用 weight 过 程 告诉 计算 机 了 
是 频数 ， 然 后 调用 非 参数 
BINOMIAL 检验 ， 检 验 样本 频率 与 
给 定 总 体 概 率 之 间 的 非 参数 检验 


首先 用 weight 过 程 告 诉 计 算 机 上 
是 频数 ， 然 后 调用 统计 描述 中 的 
CROSSTABS 过 程 , 对 xl 与 x2 所 形 
成 的 列 联 表 进行 卡 方 检验 


首先 用 weight 过 程 告诉 计算 机 上 
是 频数 ， 然 后 调用 统计 描述 中 的 
CROSSTABS 过 程 , 对 zl 15 x2 BE 
成 的 列 联 表 采用 McNrmar 卡 方 检验 


WILCOXON 符号 秩 检验 


Mann Whitney U 检验 ， 应 变量 为 
了 ， 分 组 变量 为 group 


首先 用 weight 过 程 告诉 计算 机 上 
是 频数 ， 然 后 进行 Mann Whitney U 
检验 








SPSS 统计 分 析 程 序 简介 ESO 


NPAR TESTS 
/K-W=y BY group (1 3) 
/MISSING ANALYSIS. 

WEIGHT 
BY f 

NPAR TESTS 
/K-W-zy BY group (1 4) 
/MISSING ANALYSIS. 

NPAR TESTS 
/FRIEDMAN = x1 x2 x3 x4 x5 
/MISSING LISTWISE. 

CORRELATIONS 
/VARIABLES-x y 
/PRINT-TWOTAIL NOSIG 
/MISSING-PAIRWISE 

NONPAR CORR 
/VARIABLES=X y 
/PRINT-SPEARMAN TWOTAIL NOSIG 
/MISSING-PAIRWISE . 

UNIANOVA 
y BY f WITH x 
/METHOD - SSTYPE(3) 
/INTERCEPT - INCLUDE 
/PRINT - DESCRIPTIVE 
/CRITERIA - ALPHA(.05) 
/DESIGN - x f 

GRAPH 
/SCATTERPLOT(BIVAR)-x WITH y 
/MISSING-LISTWISE . 

COMPUTE x1 = LG10 (x) 

VARIABLE LABELS x1 'COMPUTE x1 - LG10(x) (COMPUTE)' 

EXECUTE 

REGRESSION 
/MISSING LISTWISE 
/STATISTICS COEFF OUTS R ANOVA 
/CRITERIA-PIN(.05) POUT(.10) 
/NOORIGIN 
/DEPENDENT y 


/METHOD-ENTER x1 


Kruskal Wallis 检验 ， 应 变量 为 了 ， 
分 组 变量 为 group 


首先 用 weight 过 程 告诉 计算 机 上 
是 频数 ， 然 后 进行 Kruskal Wallis 检 
验 ， 应 变量 为 Y， 分 组 变量 为 group 


Pearson 相关 系数 与 Spearman 相关 
系数 的 估计 与 检验 


检验 两 总 体 回 归 直 线 是 否 平行 


(D E x AA, Y HABER 
绘制 散 点 图 

@ 以 1g(7) 为 自 变量 ,以 了 为 应 变 
量 ， 构 建 直线 回归 方程 
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UNIANOVA 完全 随机 分 组 两 因素 析 因 设计 的 
y BY x1 x2 方差 分 析 ， 并 对 x1，x2 做 两 两 比较 
/METHOD = SSTYPE(3) 

/INTERCEPT - INCLUDE 
/POSTHOC - x1 x2 ( LSD ) 
/PLOT = PROFILE( x1*x2 ) 
/PRINT = DESCRIPTIVE 
/CRITERIA - ALPHA(.05) 
/DESIGN = x1 x2 x1*x2 

GLM 裂 区 设计 的 方差 分 析 
x1 x2 BY block x 
/WSFACTOR - factorl 2 Polynomial 
/METHOD - SSTYPE(3) 

/CRITERIA ALPHA(.05) 


/WSDESIGN factorl 


/DESIGN = 
GLM 两 因素 多 水 平 的 重复 测量 分 析 , 其 
xl x2 x3 x4 x5 BY group P xl,x2,x3,x4 5) x5 为 因素 factori 


/WSFACTOR = factorl 5 Polynomial 的 5 个 水 平 ，group 为 另 一 因素 
/METHOD = SSTYPE(3) 
/EMMEANS TABLES(group) COMPARE ADJ(LSD) 
/EMMEANS = TABLES(factorl) COMPARE ADJ (LSD) 
/ EMMEANS TABLES (group*factorl) 
/CRITERIA - ALPHA(.05) 
/WSDESIGN = factorl 
/DESIGN - group 
UNIANOVA 完全 随机 设计 的 协 方差 分 析 
y BY group WITH x 
/METHOD = SSTYPE(5) 
/INTERCEPT = INCLUDE 
/EMMEANS = TABLES(group) WITH(x=MEAN) COMPARE ADJ(LSD) 
/PRINT = DESCRIPTIVE 
/CRITERIA - ALPHA(.05) 
/DESIGN - x group . 
UNIANOVA 随机 区 组 设计 的 协 方差 分 析 
y BY xl x2 WITH x 
/METHOD = SSTYPE(5) 
/INTERCEPT = INCLUDE 
/CRITERIA = ALPHA(.05) 


/DESIGN = x1 x2 x 
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SPSS irs SEU 


续 表 





REGRESSION 建立 多 重 线性 回归 方程 ， 为 应 变 


/DESCRIPTIVES MEAN STDDEV CORR SIG N 量 ，xl, x2, 33, x4 与 x5 为 自 变量 


/MISSING LISTWISE 

/STATISTICS COEFF OUTS CI R ANOVA 
/CRITERIA-PIN(.05) POUT(.10) 
/NOORIGIN 

/DEPENDENT y 

/METHOD-ENTER x1 x2 x3 x4 x5 

REGRESSION 
/DESCRIPTIVES MEAN STDDEV CORR SIG N 
/MISSING LISTWISE 
/STATISTICS COEFF OUTS CI R ANOVA 
/CRITERIA-PIN(.1) POUT(.15) 

/NOORIGIN 
/DEPENDENT y 
/METHOD-STEPWISE x1 x2 x3 x4 x5. 

WEIGHT 病例 -对 照 研 究 资料 的 Logistic [Bl 
BY f. 归 分 析 , 应 变量 为 y, 自 变量 为 x1, x2, 

LOGISTIC REGRESSION VAR-y xi 
/METHODsENTER x1 x2 x3 
/CRITERIA PIN(.05) POUT(.10) ITERATE(20) CUT(.5) 

LOGISTIC REGRESSION VAR-y AH Logistic 逐步 回归 分 析 法 筛选 
/METHOD-FSTEP(WALD) xl x2 x3 x4 x5 x6 危险 因素 ， 其 中 x1, x2, x3, x4, x5, x6 
/SAVE PRED PGROUP 为 危险 因素 
/CLASSPLOT 
/PRINT=SUMMARY CI(95) 

/CRITERIA PIN(.1) POUT(.15) ITERATE(20) CUT(.5) 

SURVIVAL 对 两 组 生存 率 进行 Log-rank 检验 

TABLE-t BY group(1 2) 

/INTERVAL-THRU 60 BY 1 

/STATUS-status (1) 

/ PRINT-TABLE 

/PLOTS ( SURVIVAL )-t BY group 
/COMPARE-t BY group /CALCULATE PAIRWISE 

KM 
t BY group /STATUS-status(1) 

/PRINT TABLE MEAN 
/PLOT SURVIVAL 


/TEST LOGRANK BRESLOW TARONE 





/COMPARE OVERALL POOLED 
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COXREG Cox 模型 分 析 x1, x2, x3, x4, x5, x6 
t /STATUS-y (1) 与 z 为 协 变量 
/METHOD-ENTER x1 x2 x3 x4 x5 x6 x7 
/PLOT SURVIVAL 
/ PRINT-CI (95) 

/CRITERIA-PIN(.05) POUT(.10) ITERATE(20) 

DISCRIMINANT 判别 分 析 

/GROUPS= 原 分 类 (1 3) 

/VARIABLES=x1 x2 x3 x4 x5 

/ANALYSIS ALL 

/SAVE-CLASS SCORES 

/PRIORS EQUAL 

/STATISTICS-BOXM COEFF RAW TABLE CROSSVALID 
/ PLOT-CASES 

/CLASSIFY-NONMISSING POOLED 

CLUSTER x1 x2 x3 x4 x5 x6 x7 x8 系统 聚 类 分 析 
/METHOD BAVERAGE 
/MEASURE= SEUCLID 
/PRINT SCHEDULE 





/PLOT DENDROGRAM VICICLE 
/SAVE CLUSTER(2) 

PROXIMITIES x1 x2 x3 x4 x5 x6 x7 x8 
/MATRIX OUT ('D: *NspssNcluster.tmp') 
/VIEW- VARIABLE 
/MEASURE= SEUCLID 
/PRINT NONE 
/STANDARDIZE- NONE 

CLUSTER 
/MATRIX IN ('D: \spss\cluster.tmp’} 
/METHOD BAVERAGE 
/PRINT SCHEDULE 
/PLOT DENDROGRAM VICICLE. 


ERASE FILE= 'D: \spss\cluster.tmp'. 

FACTOR 主 成 分 分 析 或 因子 分 析 
/VARIABLES x1 x2 x3 x4 x5 /MISSING LISTWISE /ANALYSIS x1 x2 

X3 x4 x5 
/PRINT INITIAL KMO EXTRACTION 





/CRITERIA MINEIGEN(1) ITERATE(25) 
/EXTRACTION PC 

/ROTATION NOROTATE 
/METHOD-CORRELATION 
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附录 C 统计 分 析 方 法 路 径 图 





1. 单 变量 定量 资料 分 析 


是 样本 均 数 与 总 体 均 数 的 
1 检验 (第 5 章 ) 
单 样本 均 数 Es 
与 总 体 均 数 比较 ñ 非 参 检验 (第 7 章 ) 
是 成 组 设计 :检验 
(第 5 章 ) 
hH, 
?检验 (第 5 章 ) 
是 | ES 
x= Wilcoxon 秩 和 检验 
(第 7 章 ) 
c 均 数 差 值 正 态 
E Wilcoxon 符号 秩 和 检验 
《第 7 章 ) 
单个 单 因素 方差 分 析 
(第 5 章 ) 
个 数 
是 2 个 或 | 二 因素 或 其 他 方差 分 析 
个 
多 个 (第 5 章 ) 
否 Kruskal-Wails 检验 
GB 7 X) 
多 样本 均 数 比较 独立 


是 重复 测量 的 方差 分 析 


(第 20 章 ) 
: 
f 


Friedman 秩 和 检验 
(第 7 章 ) 


与 统计 分 


2. 单 变量 定性 资料 分 析 


| ss |— 
n(1-p)25 


p 


Z 检 验 GB330 


Di 


二 项 分 布 的 确切 概率 法 〈 第 6 章 ) 


两 样本 率 
和 构成 比 


*+ 卡 方 检验 、 确 切 概率 法 〈 第 6 章 )、 
Z 检 验 (第 3 章 ) 


McNemar 配对 卡 方 检验 (第 6 章 ) 


多 样本 率 或 构成 比 卡 方 检验 〈 第 6 章 ) 


关联 度 列 联系 数 分 析 (第 6 章 ) 


卡 方 检验 (第 6 章 ) 


样 
两 
分 组 变量 有 序 


应 变量 有 序 Wilcoxon 秩 和 检验 〈 第 7 章 ) 


Bowker 检验 /Kappa 检验 


(第 7 3€) 


本 与 总 体 
样本 
配对 /配伍 组 设计 
序 


秩 相 关 分 析 / 线 性 趋势 检验 


非 配对 /配伍 组 设计 (第 7 章 ) 


8E 
RE | 
m [nm 


* 卡 方 检验 : 当 之 40 且 所 有 T > 5 时 , 用 普通 卡 方 检验 , 若 所 得 p = G , 则 改 用 确切 概率 法 ; nz 40 但 有 1<T<5 


时 ， 用 校正 的 卡 方 检验 ; 
确切 概率 法 : "amc 40 ORT < 1 时 ， 用 确切 概率 法 ， 
ZH. 当 njpl 和 ni(l 一 pi) 之 5， 且 同时 满足 np2 和 hs(1 一 p,)2 5 时 ， 用 Z 检 验 。 


3. 双 变量 资料 分 析 


Pearson 积 距 相关 分 析 (28 8 章 ) 


Spearman 秩 相 关 分 析 (2 8 章 ) 


简单 线性 回归 (第 8 章 ) 


秩 回 归 (第 8 章 ) 或 
变量 变换 (第 9 章 ) 


曲线 回归 或 非 线性 回归 (第 9 章 ) 
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ge ER 


ih x om 


统计 分 析 方 法 路 径 


4. 多 变量 资料 分 析 


Kaplan-Meier 法 或 寿命 表 法 〈 第 16 章 ) 


| 


aEH 
BE | [x 多 重 线性 回归 RB 1080 


5. 大 样本 与 小 样本 定量 资料 的 统计 方法 选择 


tm 


LS C530 
1 组 
:检验 (第 5 章 ) 


秩 和 检验 或 变量 转换 (第 7 章 ) 


名 义 型 
| te | 
》 因素 
TOU ^ - £ 对 数 线 性 模型 分 析 (第 17 章 ) 
E 
数值 型 i Cox 比例 风险 模型 COR 16 300 
截 尾 数据 x 
方差 分 析 〈 第 5 章 ) 
二 项 分 类 1 回归 CÓ 14 章 ) 
AM 三 类 或 多 类 多 项 分 类 logistic 回归 (第 14 章 ) 
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ADN 与 统计 分 析 — 
6. 其 他 多 元 资料 的 统计 学 方法 选择 
减少 指标 变量 的 个 数 
寻找 潜在 的 影响 因子 


将 若干 个 对 象 按 其 属性 
相似 的 程度 进行 归 类 


根据 已 知 分 类 建立 判别 
方程 ,然后 对 样本 个 体 进行 


分 类 


分 析 二 组 变量 之 间 的 线 
性 相关 关系 


分 析 事 物 随时 间 变 换 的 
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分 析 二 维 列 联 表 中 行 因 
素 和 列 因 素 间 的 对 应 关系 


估 测 消费 者 对 产品 或 服 
务 的 相对 重要 性 和 属性 水 





平 效用 大 小 的 评价 


测量 的 一 致 性 评价 
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典型 相关 分 析 (第 21 章 ) 


时 间 序 列 分 析 (第 22 章 ) 


对 应 分 析 (第 24 章 ) 


结合 分 析 (第 24 章 ) 


信和 度 分 析 (第 23 章 ) 


